IA : 5 choses que Dall-E ou Midjourney ne font pas (encore) correctement

Ia : 5 Choses Que Dall E Ou Midjourney Ne Font

Lettres, mots et textes

textes midjourney.jpg

Une ressource largement utilisée dans le monde des jeux vidéo consiste à remplir les scénarios d’affiches avec des langages intelligibles. Des alphabets entièrement synthétiques qui semblent réels et forment des mots qui n’existent pas. Les programmeurs utilisent cette astuce pour gagner du temps, car ils n’ont alors pas à localiser les actifs pour chaque région dans laquelle les jeux sont commercialisés. Eh bien, si vous demandez à une IA de générer une affiche avec un texte, le résultat sera une étiquette ou un paragraphe avec des personnages complètement inventés, très similaires à ce que l’on voit dans les jeux vidéo.

Parfois, l’IA tentera de pouvoir créer des personnages que l’on connait, mais ne parviendra pas à ordonner les cartes, voire à en répéter certaines.

Yeux

yeux de diffusion stables

En règle générale, les yeux sont un peu résistants aux IA. Des logiciels tels que Midjourney ou Stable Diffusion peuvent générer des visages humains ou animaux pratiquement parfaits. Cependant, vous devez faire plusieurs tentatives jusqu’à ce que vous trouviez des yeux qui semblent cohérents.

Il est tout à fait normal d’avoir des yeux rouges, des globes oculaires totalement noirs ou des images totalement asymétriques. Dans ce qui est acceptable, il y a aussi des résultats dans lesquels l’intelligence artificielle n’en finit pas de séparer le blanc de l’iris et de la pupille. Heureusement, il existe d’autres intelligences artificielles comme GFPGANqui sont capables de réparer les images qui ont des visages étranges ou des yeux mal résolus.

Mains

mains stables diffusion reddit.jpg

Combien de doigts a une main ? Aucune des deux IA n’est totalement claire. Les intelligences artificielles ont du mal à comprendre que les cinq doigts d’une main humaine sont différents. La même chose que vous obtenez une image d’une main qui n’a que deux doigts. Ou, au contraire : tout un catalogue d’index et de bagues. Ce problème est assez présent dans Dall-E, Stable Diffusion et Midjourney.

Pensée latérale et contexte

contexte du problème à mi-parcours

À ce stade, les trois principales IA ont leurs avantages et leurs inconvénients, mais nous revenons à une situation où il existe des problèmes communs. Si vous poussez l’IA hors de ses cases, vous obtiendrez de mauvais résultats. Voulez-vous une image d’une personne avec trois yeux ? Ou celui d’un renard à neuf queues ? Eh bien, vous pouvez avoir les choses compliquées, car l’IA, parfois, ne comprendra pas ce que vous lui demandez. Ils sont assez carrés et ont été entraînés de telle manière qu’ils ne veulent pas que vous brisiez leurs plans.

Dans cette même ligne, nous avons l’analyse du contexte. Dall-E 2 remporte la médaille d’or dans cet aspect, mais cela n’indique pas que vous devez expliquer très soigneusement ce que vous voulez que l’IA peigne pour vous. Pour l’IA, un œuf est une chose, un œuf au plat en est une autre. Vous devez décrire l’image comme si vous l’expliquiez à un extraterrestre. Sinon, vous aurez un résultat qui vous fera rire aux éclats, tout comme cela m’est arrivé avec l’image que j’ai donnée en exemple. Nous parlerons un peu plus du contexte dans le dernier bloc de cet article, car il est étroitement lié au dernier point.

Application de la censure

mots censurés à mi-parcours

Lorsque les GAN ont commencé à montrer au monde tout leur potentiel, nous avons rapidement su que la censure allait être notre pain quotidien. Ce sujet donnerait à parler longuement dans un autre article, mais le problème ici n’est pas la censure, mais la manière dont elle est appliquée.

Nous comprenons parfaitement qu’une IA vous empêche de générer une image pornographique ou qui invite à l’automutilation. Mais cela n’a aucun sens pour quelque chose qui s’appelle « l’intelligence artificielle » de travailler avec un liste des mots interdits

avertissement censure ia.jpg

En anglais (c’est ainsi que vous devez interagir avec l’IA), le même mot peut facilement avoir dix significations. Si une seule des significations figure dans la liste, vous ne pourrez pas l’utiliser. Et nous ne parlons pas de termes fous, mais de mots normaux et courants que nous utilisons au quotidien. J’ai essayé de générer une texture de feuille avec de nombreuses branches dans Midjourney. J’ai reçu un avertissement parce que vous ne pouvez pas peindre de « veines » sur cette IA. J’ai essayé de créer un chat Maine Coon géant qui a fusionné avec les nuages ​​- j’ai une image avec la même invite faite en SD et ils ne m’ont pas dérangé du tout. L’IA ne m’a pas laissé faire – après avoir cherché dans le Collins, j’ai découvert que le terme « Coon » pouvait être utilisé avec des connotations racistes. Je voulais générer une peinture d’une femme de la Renaissance coupant des oignons, mais je n’ai pas pu ; le verbe ‘couper’ est également censuré.

La censure est le point faible de Dall-E 2 et de Midjourney. Dans Stable Diffusion, la censure peut être contournée en utilisant le logiciel sur votre propre ordinateur. Il était évident que ces systèmes allaient être censurés, mais le programme lui-même devrait disposer d’outils pour déterminer ce qui est malveillant et ce qui ne l’est pas. D’accord, ne me laissez pas générer une photo de Lady Gaga, mais ne m’empêchez pas de générer un chien avec des lunettes de soleil Lady Gaga. Les IA ont encore un long chemin à parcourir à ce stade, car la censure à laquelle elles sont actuellement soumises n’a aucun sens.