Les deux images que l’IA est incapable de faire correctement peu importe combien tu le demandes et pourquoi cela se produit

Les deux images que l'IA est incapable de créer correctement, et pourquoi cela se produit

Dans un monde où l’intelligence artificielle progresse rapidement, des limites subsistent quant à sa capacité à reproduire des éléments apparemment simples, comme des gauchers ou des montres indiquant une heure précise. Ce phénomène souligne l’absence d’une véritable compréhension contextuelle au sein des modèles actuels, laissant entrevoir un potentiel encore inexploré.

Tout est une question de pratique (et d’exemples)

Les deux images que l'IA est incapable de créer correctement, et pourquoi cela se produit
Cela s’appelle intelligence artificielle, mais ces exemples montrent qu’elle ne l’est pas tant que ça… pour l’instant

En très peu de temps, peut-être en trop peu de temps, l’intelligence artificielle a considérablement évolué, parvenant parfois à produire des images statiques et animées (vidéo) pratiquement indistinguables de la réalité. Les derniers modèles, tels que Sora d’OpenAI et Veo 2 de Google, réussissent à impressionner dans presque n’importe quel clip recréé à partir de nos demandes.

Cependant, il y a au moins deux choses que l’IA est incapable, à ce jour, de reproduire correctement, et il est probable qu’il en existe bien d’autres, avec une explication très simple.

Si vous ne voulez pas vous frustrer, ne lui demandez pas cela

Les gauchers

On estime actuellement qu’environ 12 % de la population est gauchère, bien que ce chiffre varie entre 9 et 18 % selon les rapports, il est donc surprenant qu’avec des millions de personnes utilisant leur main gauche, l’IA soit incapable de reproduire cela lors de la génération d’images.

Avec la commande « Fais une image d’une personne écrivant de la main gauche, elle est gauchère. Elle n’utilise pas la main droite du tout », voici les résultats obtenus :

Comme nous le constatons, deux des modèles les plus utilisés sont incapables, après plusieurs essais, de créer des personnes écrivant de la main gauche, bien que nous marquions que les mains, et en particulier les doigts, soient de mieux en mieux reproduits, même s’il reste encore des progrès à faire, mais ce sera une question de mois.

D’autres exemples de la façon dont l’IA ne fait pas la distinction entre gauchers et droitiers. D’autres modèles comme Venice ou Leonardo ont présenté les mêmes résultats.

Des montres indiquant une heure précise

Concernant les aiguilles, évidemment, bien que les numériques posent également des problèmes car la représentation des caractères, qu’il s’agisse de lettres ou de chiffres, est une question encore en cours d’amélioration. La commande donnée était « Montre indiquant avec ses aiguilles les 15:35 ».

Des nombres bien définis dans leur majorité, un peu moins dans le cas de Dall-E, dont les aiguilles ne correspondent cependant pas à la demande.

Tandis que Copilot a fait une grande erreur lors de la représentation des chiffres du cadran, DeepAI n’a pas rencontré de problème. Cela dit, les deux s’efforcent de nous présenter une heure proche de deux heures moins dix.

Le manque d’entraînement et d’exemples comme principal problème

L’incapacité de l’IA à générer des images précises dans des cas tels que des personnes écrivant de la main gauche ou des montres indiquant une heure spécifique découle en grande partie des déficiences dans les données d’entraînement. Les modèles génératifs sont formés sur de vastes ensembles de données recueillies sur internet, mais n’incluent pas toujours suffisamment d’exemples représentatifs de situations spécifiques.

Si les données sont déséquilibrées ou contiennent des erreurs, comme des étiquettes incorrectes ou des images ambiguës, le modèle apprend des motifs peu fiables, ce qui entraîne des résultats incohérents dans des cas moins courants ou avec des détails complexes.

Par exemple, les montres peuvent apparaître avec des aiguilles désalignées parce que le modèle n’a pas appris les règles exactes de leur fonctionnement, mais seulement des motifs généraux extraits de données où, pour plaire à l’œil, les publicitaires font en sorte qu’elles indiquent toujours deux heures moins dix.

L’IA n’est pas intelligente en tant que telle

De plus, l’IA manque de compréhension contextuelle, ce qui aggrave le problème. Les modèles génératifs fonctionnent sur la base de corrélations statistiques, mais n’ont pas de compréhension conceptuelle du monde. Cela signifie qu’ils ne peuvent pas interpréter la fonctionnalité des objets ni les relations spatiales nécessaires pour les représenter correctement.

Une main gauche tenant un stylo peut sembler un changement trivial pour un humain, mais pour l’IA, cela nécessite de reconnaître et de reproduire un ensemble spécifique d’interactions physiques et anatomiques qui ne sont probablement pas bien représentées dans les données d’entraînement.

De façon similaire, des montres indiquant une heure précise impliquent de suivre des règles précises de synchronisation entre les aiguilles, quelque chose que les modèles actuels ne comprennent pas car ils n’ont pas de connaissance explicite de ces normes.