Elon Musk tire la sonnette d’alarme concernant l’avenir de l’intelligence artificielle, révélant que les données pour l’entraîner seront épuisées d’ici 2024. Cette situation pourrait pousser les modèles à recourir à des données synthétiques, ce qui risquerait d’altérer leurs performances et d’accroître les risques d’erreurs. Une problématique qui mérite d’être explorée.
L’alarme a été lancée par Elon Musk, qui a expliqué lors d’une interview que les données pour alimenter les modèles sont épuisées en 2024. Le risque est que l’intelligence artificielle entraînée avec des données synthétiques régresse progressivement.

Les modèles d’intelligence artificielle ont scruté le web pour recueillir toutes les données « humaines » possibles. Actuellement, ils sont à court de ressources. Le dernier avertissement vient de Elon Musk, mais ce n’est pas le premier. Depuis quelques mois, des questions se posent sur le futur d’alimentation des modèles. Jusqu’à présent, ils ont été alimentés par des images, des textes, des vidéos, permettant aux modèles d’apprendre à reconnaître les schémas et à imiter le langage humain. « La somme cumulative de la connaissance humaine, cependant, a été épuisée dans l’entraînement de l’IA », a expliqué Musk lors d’une interview diffusée en direct sur X.
« Les données sont officiellement épuisées en 2024« , et cela pose problème. « La seule façon », selon Musk, de former de nouveaux modèles est de recourir à des données synthétiques créées par l’intelligence artificielle, qui « rédigeront une sorte d’essai ou élaboreront une thèse et s’évalueront elles-mêmes à travers ce processus d’auto-apprentissage ». Pourtant, ce processus pourrait nuire aux modèles, les rendant progressivement moins performants et plus susceptibles aux hallucinations de l’IA.
Pourquoi les données synthétiques sont un problème pour les modèles IA
En partie, cela est déjà en train de se produire, Meta a même utilisé des données synthétiques pour entraîner son modèle d’intelligence artificielle Llama, Microsoft pour Phi.4, ainsi que Google et OpenAI. Pourtant, l’entraînement sur des données synthétiques pourrait devenir problématique. Comme l’a expliqué Andrew Duncan, directeur de l’AI foundation à l’Alan Turing Institute du Royaume-Unis, « la dépendance aux données générées par l’intelligence artificielle risque de faire s’effondrer les modèles, détériorant la qualité des résultats. »
Les systèmes risquent de produire des résultats biaisés, banals, répétitifs. « Quand on commence à alimenter un modèle avec du matériel synthétique, il commence à obtenir des rendements décroissants« , a expliqué Duncan. Cependant, il était inévitable, même si les données « humaines » n’étaient pas épuisées, que les données synthétiques finissent par être ingérées par les modèles. En effet, depuis leurs lancements, les contenus générés par l’IA publiés sur les réseaux sociaux et dans les moteurs de recherche ont augmenté exponentiellement ; inévitablement, ces données synthétiques, troublées parmi des contenus réels, auraient été intégrées tôt ou tard par les machines.
L’hypothèse d’Ilya Sutskever
L’alerte avait déjà été lancée en décembre par Ilya Sutskever, co-fondateur d’OpenAI et ancien directeur de la recherche. « Alors que les capacités de calcul de ChatGPT continuent de se développer et de devenir de plus en plus puissantes, les données qui ont été utilisées jusqu’à présent pour son entraînement commencent à manquer. Les données ne s’accumulent pas, car nous avons seulement un internet ». Selon Sutskever, il existe différents scénarios possibles, il n’est pas dit que les modèles soient destinés à un déclin progressif. Au contraire.
Les grands modèles linguistiques pourraient, par exemple, adopter des méthodes de raisonnement plus similaires à celles des humains. Actuellement, les LLM sont des modèles mathématiques qui s’appuient sur la statistique. Donc, pour donner un exemple, si l’on demande au chatbot : « Qui est la première personne à avoir marché sur la lune ? », il répondra « Neil Armstrong ». Évidemment, il n’a rien à dire sur la mission Apollo, mais il analyse quelles sont les mots les plus susceptibles d’apparaître dans la séquence. Pour comprendre, ChatGPT pourrait être le petit-fils du correcteur automatique pour les messages. Il fonctionne comme le système de texte prédictif sur nos smartphones. De plus, ils utilisent également les réponses des utilisateurs pour améliorer leurs performances ; ce type d’apprentissage RLHF permet au chatbot de suivre les indications et de générer des réponses de plus en plus précises.
Actuellement, les modèles évoluent et pourraient également changer les méthodes d’entraînement. Sutskever n’a aucun doute, « un futur de machines superintelligentes nous attend, qui raisonneront de plus en plus en imitant la pensée humaine, avec une compréhension de plus en plus profonde, jusqu’à devenir conscientes d’elles-mêmes. »
