La boucle de rétroaction de l'IA sonnera le glas des futurs modèles génératifs

Tourné vers l’avenir : les grands modèles de langage populaires (LLM) tels que ChatGPT d’OpenAI ont été formés sur des données créées par l’homme, qui sont toujours le type de contenu le plus abondant disponible sur Internet à l’heure actuelle. L’avenir, cependant, pourrait réserver de très mauvaises surprises pour la fiabilité des LLM formés presque exclusivement sur des blobs de bits d’IA générés précédemment.

Dans le sombre avenir d’Internet, lorsque le réseau mondial sera rempli de données générées par l’IA, les LLM seront essentiellement incapables de progresser davantage. Au lieu de cela, ils reviendront à leur état d’origine, oubliant le contenu créé par l’homme précédemment acquis et ne jetant que des tas de bits brouillés pour un manque de fiabilité maximal et une crédibilité minimale.

C’est du moins l’idée derrière un nouvel article présentant le titre généré par l’IA, The Curse of Recursion. Une équipe de chercheurs du Royaume-Uni et du Canada a tenté de spéculer sur ce que l’avenir pourrait réserver aux LLM et à Internet dans son ensemble, imaginant qu’une grande partie du contenu accessible au public (texte, graphiques) sera éventuellement apportée presque exclusivement par des services et des algorithmes d’IA générative. .

Quand aucun écrivain humain – ou très peu d’entre eux – ne sera sur Internet, explique le journal, Internet se repliera sur lui-même. Les chercheurs ont découvert que l’utilisation de « contenu généré par le modèle dans la formation » provoque des « défauts irréversibles » dans les modèles résultants. Lorsque le contenu original créé par l’homme disparaît, un modèle d’IA comme ChatGPT subit un phénomène que l’étude décrit comme « l’effondrement du modèle ».

Tout comme nous avons « jonché les océans de déchets plastiques et rempli l’atmosphère de dioxyde de carbone », a expliqué l’un des auteurs (humains) de l’article sur un blog créé par l’homme, nous sommes maintenant sur le point de remplir Internet de « blah ». » La formation efficace de nouveaux LLM ou de versions améliorées de modèles existants (comme GPT-7 ou 8) deviendra de plus en plus difficile, donnant un avantage substantiel aux entreprises qui ont déjà gratté le Web auparavant, ou qui peuvent contrôler l’accès aux « interfaces humaines à grande échelle ».

Certaines entreprises ont déjà commencé à se préparer à cette corruption d’Internet par l’IA, en faisant tomber les serveurs d’Internet Archive lors d’un « exercice » de formation massif, non demandé et essentiellement malveillant par Amazon AWS.

Comme une image JPEG recompressée trop de fois, l’Internet du futur basé sur l’IA est apparemment destiné à se transformer en un tas géant de bruit blanc numérique sans valeur. Pour éviter l’apocalypse de l’IA, les chercheurs suggèrent quelques solutions potentielles.

En plus de conserver des données de formation originales créées par l’homme pour former également de futurs modèles, les entreprises d’IA pourraient s’assurer que les groupes minoritaires et les données moins populaires sont toujours une chose. Il s’agit d’une solution non triviale, ont déclaré les chercheurs, et qui nécessite beaucoup de travail. Ce qui est clair, cependant, c’est que Model Collapse est un problème d’algorithmes d’apprentissage automatique qui ne peut être négligé si nous voulons continuer à améliorer les modèles d’IA actuels.

Découvrez le reportage du mois (sous-titré en français), l’IA gagnera t-elle face aux champion du monde du jeu de Go ? :

La boucle de rétroaction de l’IA sonnera le glas des futurs modèles génératifs

R9 Pro de retour en stock : pourquoi tout le monde s’arrache ce purificateur d’eau

MacBook Neo + AirPods 4 à prix cassé grâce à ce code réduction Cdiscount

EZVIZ EP8 Ultra : Sonnette connectée avatar double objectif qui surveille même les colis

L’université d’Oxford révèle une fuite de données suite au piratage de sa plateforme carrières

La dernière mise à jour des Pixel inclut une fonction pour ne manquer aucun match de votre équipe préférée

La Chine prend de l’avance sur Elon Musk et annonce la première puce cérébrale commerciale de l’histoire

Le Galaxy S26 FE se dévoile déjà et Samsung aurait résolu son principal problème

Plus de 20 000 comptes Instagram piratés via une arnaque au support technique de Meta

TEST Reolink Home Hub : L’enregistrement de vos caméras Wi-Fi sans abonnement

TEST Reolink Solar Floodlight Cam : Caméra de sécurité Wi-Fi solaire éblouissante et dissuadante

TEST JIMMY Matrix M9 Pro + S9 : Eau purifiée, chaude ou gazeuse en quelques secondes