La boucle de rétroaction de l’IA sonnera le glas des futurs modèles génératifs

AI feedback loop will spell death for future generative models

Tourné vers l’avenir : les grands modèles de langage populaires (LLM) tels que ChatGPT d’OpenAI ont été formés sur des données créées par l’homme, qui sont toujours le type de contenu le plus abondant disponible sur Internet à l’heure actuelle. L’avenir, cependant, pourrait réserver de très mauvaises surprises pour la fiabilité des LLM formés presque exclusivement sur des blobs de bits d’IA générés précédemment.

Dans le sombre avenir d’Internet, lorsque le réseau mondial sera rempli de données générées par l’IA, les LLM seront essentiellement incapables de progresser davantage. Au lieu de cela, ils reviendront à leur état d’origine, oubliant le contenu créé par l’homme précédemment acquis et ne jetant que des tas de bits brouillés pour un manque de fiabilité maximal et une crédibilité minimale.

C’est du moins l’idée derrière un nouvel article présentant le titre généré par l’IA, The Curse of Recursion. Une équipe de chercheurs du Royaume-Uni et du Canada a tenté de spéculer sur ce que l’avenir pourrait réserver aux LLM et à Internet dans son ensemble, imaginant qu’une grande partie du contenu accessible au public (texte, graphiques) sera éventuellement apportée presque exclusivement par des services et des algorithmes d’IA générative. .

Quand aucun écrivain humain – ou très peu d’entre eux – ne sera sur Internet, explique le journal, Internet se repliera sur lui-même. Les chercheurs ont découvert que l’utilisation de « contenu généré par le modèle dans la formation » provoque des « défauts irréversibles » dans les modèles résultants. Lorsque le contenu original créé par l’homme disparaît, un modèle d’IA comme ChatGPT subit un phénomène que l’étude décrit comme « l’effondrement du modèle ».

La boucle de retroaction de lIA sonnera le glas des

Tout comme nous avons « jonché les océans de déchets plastiques et rempli l’atmosphère de dioxyde de carbone », a expliqué l’un des auteurs (humains) de l’article sur un blog créé par l’homme, nous sommes maintenant sur le point de remplir Internet de « blah ».  » La formation efficace de nouveaux LLM ou de versions améliorées de modèles existants (comme GPT-7 ou 8) deviendra de plus en plus difficile, donnant un avantage substantiel aux entreprises qui ont déjà gratté le Web auparavant, ou qui peuvent contrôler l’accès aux « interfaces humaines à grande échelle ».

Certaines entreprises ont déjà commencé à se préparer à cette corruption d’Internet par l’IA, en faisant tomber les serveurs d’Internet Archive lors d’un « exercice » de formation massif, non demandé et essentiellement malveillant par Amazon AWS.

Comme une image JPEG recompressée trop de fois, l’Internet du futur basé sur l’IA est apparemment destiné à se transformer en un tas géant de bruit blanc numérique sans valeur. Pour éviter l’apocalypse de l’IA, les chercheurs suggèrent quelques solutions potentielles.

En plus de conserver des données de formation originales créées par l’homme pour former également de futurs modèles, les entreprises d’IA pourraient s’assurer que les groupes minoritaires et les données moins populaires sont toujours une chose. Il s’agit d’une solution non triviale, ont déclaré les chercheurs, et qui nécessite beaucoup de travail. Ce qui est clair, cependant, c’est que Model Collapse est un problème d’algorithmes d’apprentissage automatique qui ne peut être négligé si nous voulons continuer à améliorer les modèles d’IA actuels.

Découvrez le reportage du mois (sous-titré en français), l’IA gagnera t-elle face aux champion du monde du jeu de Go ? :

YouTube video