La comparaison des IA spécialisées dans la génération d'images à partir de texte révèle des différences marquées
Le deep learning au service de la création de contenu visuel
Sommaire
La comparaison des IA spécialisées dans la génération d'images à partir de texte révèle des différences marquées
Adgensee, Vincent GARCIES 17 novembre, 2022

Fabian Stelzer a récemment effectué un test de comparaison d'images entre trois générateurs de texte en image dotés d'une intelligence artificielle (IA) : DALL-E 2Midjourney et Stable Diffusion.

Comparatif de trois IA générateurs de texte en image

Stelzer a publié ses résultats dans un fil Twitter où il a expliqué le processus qui consistait à donner exactement le même message à chaque machine et à utiliser un rapport d'aspect 1:1.

Il explique qu'il considère chaque programme, qu'il surnomme synthétiseurs d'images, comme des "instruments", chaque générateur produisant son propre style, son propre ton et son propre état d'esprit :

"Je considère ces synthés d'images comme des instruments, chacun ayant son propre timbre, ses forces et ses faiblesses", explique-t-il.

Cette expérience fascinante donne un aperçu de la façon dont chaque générateur d'images IA interprète les instructions et laisse des indices sur le style d'image global de la machine.




MidJourney

"Midjourney me rappelle un magnifique synthétiseur analogique Moog - il est presque impossible de le faire sonner mal et vous pouvez faire des choses incroyables avec lui, mais en contrepartie, sa gamme est plus limitée. Les artefacts qu'il produit sont comme une distorsion analogique, très agréable."



DALL-E 2 de OpenAI

Stelzer dit que le générateur d'images AI peut-être le plus connu, DALL-E 2, est comme "un synthétiseur numérique; une gamme incroyable, mais il sonne presque toujours un peu trop numérique."

Stable Diffusion

"Stable Diffusion est comme un synthétiseur modulaire complexe, vous pouvez en tirer presque n'importe quel ton, mais c'est un peu plus difficile à jouer et à déclencher."



Conclusion

Midjourney a un aspect plus sombre que les deux autres. Prenez l'image "Behind the scenes of the moon landing". Alors que DALL-E 2 et Stable Diffusion génèrent une image beaucoup plus réaliste. L'offre de Midjourney a un aspect apocalyptique, avec l'astronaute qui semble tout droit sorti d'un film d'horreur.

Cependant, Midjourney ne semble pas être en mesure de créer une image photoréaliste, tandis que Stable Diffusion semble être la meilleure solution d'après l'essai de Stelzer.




Une révolution prochaine dans le domaine créatif

"Les synthèses d'images IA vont révolutionner le travail créatif d'une manière que nous n'avons pas vue depuis l'avènement de la photographie - ce que la photographie était à la peinture, les synthèses d'images le sont à la photographie, et ce que le cinéma était au théâtre, les synthèses d'images le sont au cinéma", déclare Stelzer, basé à Berlin.

"Il ne s'agit pas seulement de pouvoir convoquer n'importe quelle image à la volée, mais de ce que ces outils permettront - dans quelques années, n'importe qui sera capable de créer un contenu de type cinématographique en le tapant simplement dans des détails littéraux riches."

Ce qui était autrefois difficile va devenir facile. Il est vrai que l'IA rend sans effort des tâches dont la maîtrise demandait autrefois des heures de pratique. Par exemple, un logiciel qui peut réparer de vieilles photographies.

Vous souhaitez générer vos propres images ?

DALL-E 2 n'est actuellement pas disponibles au public mais vous pouvez essayer sa version 1 depuis l'un des sites ci-dessous, cependant elle produit des images bien moins réalistes que la dernière version.

DALL-E 1 :

huggingface : dalle-mini craiyon.com 

Stable Diffusion :

hugginface : stable-diffusion dreamstudio.ai 


Crédits image : Toutes les images proviennent de Fabian Stelzer, vous trouverez d'autres travaux sur son Twitter.

Se connecter pour laisser un commentaire.