Nous avons épuisé les données humaines pour former l'IA : "Ces systèmes risquent de s'effondrer"

Elon Musk tire la sonnette d’alarme concernant l’avenir de l’intelligence artificielle, révélant que les données pour l’entraîner seront épuisées d’ici 2024. Cette situation pourrait pousser les modèles à recourir à des données synthétiques, ce qui risquerait d’altérer leurs performances et d’accroître les risques d’erreurs. Une problématique qui mérite d’être explorée.

L’alarme a été lancée par Elon Musk, qui a expliqué lors d’une interview que les données pour alimenter les modèles sont épuisées en 2024. Le risque est que l’intelligence artificielle entraînée avec des données synthétiques régresse progressivement.

Les modèles d’intelligence artificielle ont scruté le web pour recueillir toutes les données « humaines » possibles. Actuellement, ils sont à court de ressources. Le dernier avertissement vient de Elon Musk, mais ce n’est pas le premier. Depuis quelques mois, des questions se posent sur le futur d’alimentation des modèles. Jusqu’à présent, ils ont été alimentés par des images, des textes, des vidéos, permettant aux modèles d’apprendre à reconnaître les schémas et à imiter le langage humain. « La somme cumulative de la connaissance humaine, cependant, a été épuisée dans l’entraînement de l’IA », a expliqué Musk lors d’une interview diffusée en direct sur X.

« Les données sont officiellement épuisées en 2024« , et cela pose problème. « La seule façon », selon Musk, de former de nouveaux modèles est de recourir à des données synthétiques créées par l’intelligence artificielle, qui « rédigeront une sorte d’essai ou élaboreront une thèse et s’évalueront elles-mêmes à travers ce processus d’auto-apprentissage ». Pourtant, ce processus pourrait nuire aux modèles, les rendant progressivement moins performants et plus susceptibles aux hallucinations de l’IA.

Pourquoi les données synthétiques sont un problème pour les modèles IA

En partie, cela est déjà en train de se produire, Meta a même utilisé des données synthétiques pour entraîner son modèle d’intelligence artificielle Llama, Microsoft pour Phi.4, ainsi que Google et OpenAI. Pourtant, l’entraînement sur des données synthétiques pourrait devenir problématique. Comme l’a expliqué Andrew Duncan, directeur de l’AI foundation à l’Alan Turing Institute du Royaume-Unis, « la dépendance aux données générées par l’intelligence artificielle risque de faire s’effondrer les modèles, détériorant la qualité des résultats. »

Les systèmes risquent de produire des résultats biaisés, banals, répétitifs. « Quand on commence à alimenter un modèle avec du matériel synthétique, il commence à obtenir des rendements décroissants« , a expliqué Duncan. Cependant, il était inévitable, même si les données « humaines » n’étaient pas épuisées, que les données synthétiques finissent par être ingérées par les modèles. En effet, depuis leurs lancements, les contenus générés par l’IA publiés sur les réseaux sociaux et dans les moteurs de recherche ont augmenté exponentiellement ; inévitablement, ces données synthétiques, troublées parmi des contenus réels, auraient été intégrées tôt ou tard par les machines.

L’hypothèse d’Ilya Sutskever

L’alerte avait déjà été lancée en décembre par Ilya Sutskever, co-fondateur d’OpenAI et ancien directeur de la recherche. « Alors que les capacités de calcul de ChatGPT continuent de se développer et de devenir de plus en plus puissantes, les données qui ont été utilisées jusqu’à présent pour son entraînement commencent à manquer. Les données ne s’accumulent pas, car nous avons seulement un internet ». Selon Sutskever, il existe différents scénarios possibles, il n’est pas dit que les modèles soient destinés à un déclin progressif. Au contraire.

Les grands modèles linguistiques pourraient, par exemple, adopter des méthodes de raisonnement plus similaires à celles des humains. Actuellement, les LLM sont des modèles mathématiques qui s’appuient sur la statistique. Donc, pour donner un exemple, si l’on demande au chatbot : « Qui est la première personne à avoir marché sur la lune ? », il répondra « Neil Armstrong ». Évidemment, il n’a rien à dire sur la mission Apollo, mais il analyse quelles sont les mots les plus susceptibles d’apparaître dans la séquence. Pour comprendre, ChatGPT pourrait être le petit-fils du correcteur automatique pour les messages. Il fonctionne comme le système de texte prédictif sur nos smartphones. De plus, ils utilisent également les réponses des utilisateurs pour améliorer leurs performances ; ce type d’apprentissage RLHF permet au chatbot de suivre les indications et de générer des réponses de plus en plus précises.

Actuellement, les modèles évoluent et pourraient également changer les méthodes d’entraînement. Sutskever n’a aucun doute, « un futur de machines superintelligentes nous attend, qui raisonneront de plus en plus en imitant la pensée humaine, avec une compréhension de plus en plus profonde, jusqu’à devenir conscientes d’elles-mêmes. »

Nous avons épuisé les données humaines pour former l’IA : « Ces systèmes risquent de s’effondrer »

Pourquoi les données synthétiques sont un problème pour les modèles IA

L’hypothèse d’Ilya Sutskever

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Des rétines humaines « ressuscitées » ont réagi à la lumière dix heures après la mort

Vous avez un iPhone 17 les 3 meilleures coques chargeur et protection dont vous avez besoin

Tu n’es pas fou, il y a une raison pour laquelle la batterie de ton téléphone tient moins longtemps en été

Tout ce que vous pouvez faire pour résoudre les problèmes de l’application Cita Sanitaria avant de vous décourager

Mole l’outil gratuit pour nettoyer optimiser et surveiller votre Mac

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?