OpenAI peine à concrétiser ChatGPT-5, son modèle linguistique multimodal de nouvelle génération, qui accumule les retards et les coûts. Malgré des formations prometteuses, le développement est entravé par des problèmes internes et un besoin urgent de données de qualité supérieure, faisant peser un lourd enjeu sur l’avenir de cette avancée technologique.
Pour résumer, OpenAI travaille toujours sur ChatGPT-5, la prochaine génération de son modèle de langage multimodal. Cependant, le projet rencontre des difficultés. Non seulement ChatGPT-5 est en retard après avoir échoué à être lancé cette année, mais cela coûte également une fortune à l’entreprise.
Il a été rapporté au mois de mars que ChatGPT-5, qui devrait proposer de nombreuses fonctionnalités améliorées par rapport au modèle actuel GPT-4, était en cours d’entraînement par OpenAI et devait être lancé prochainement.
La fin de l’année approche à grands pas, mais il n’y a toujours aucune nouvelle de la version de prochaine génération de ChatGPT. Le Wall Street Journal a éclairé ce mystère.
GPT-5, codé sous le nom de Project Orion, est en développement depuis 18 mois au sein de l’entreprise de Sam Altman. Microsoft, le principal investisseur d’OpenAI, s’attendait à un lancement mi-2024.
Les sources du WSJ affirment qu’OpenAI a déjà réalisé au moins deux sessions d’entraînement visant à améliorer le modèle en l’entraînant avec d’énormes quantités de données.
Cependant, ces séances d’entraînement ne se sont pas déroulées comme prévu, selon des personnes proches du projet. On a rapporté que la première session était plus lente que prévu, ce qui suggère qu’une session d’entraînement à grande échelle prendrait incroyablement longtemps, augmentant encore les coûts. Il a été conclu qu’il fallait davantage de données d’entraînement diversifiées et de haute qualité, car l’internet public n’en contenait pas assez pour rendre GPT-5 clairement “plus intelligent” que son prédécesseur.
Une des solutions qu’OpenAI essaie est de recruter des personnes pour écrire du code neuf ou résoudre des problèmes mathématiques afin qu’Orion puisse apprendre, créant essentiellement des données d’entraînement à partir de zéro. C’est un processus lent : GPT-4 a été entraîné sur environ 13 trillions de tokens. Un millier de personnes écrivant 5 000 mots par jour prendrait des mois pour produire un milliard de tokens.
OpenAI a également commencé à développer des données synthétiques – des données créées par ses modèles d’IA actuels – pour entraîner Orion. Nous avons déjà entendu des mises en garde sur le genre de nonsens que ces boucles de rétroaction d’IA peuvent produire, bien qu’OpenAI pense que les problèmes peuvent être évités en utilisant des données créées par o1.

La tourmente interne de l’entreprise n’a pas aidé. Le PDG Altman a été évincé avant de revenir rapidement fin 2023, et plus de deux douzaines de cadres clés ont quitté OpenAI durant cette année. Altman avait auparavant mis sur le compte de la sortie de o1 le retard de GPT-5.
Les milliards d’euros dépensés pour tout ce qui est lié à l’IA continuent d’augmenter – un investissement qui n’a pas encore généré de retours équivalents. OpenAI sait qu’il doit justifier la dépense de ChatGPT-5 en s’assurant que le modèle représente une amélioration notable par rapport à ses prédécesseurs, ce qui s’avère plus difficile à mesure que les données d’entraînement de l’internet sont épuisées.
