Le nouveau modèle d'IA d'OpenAI alterne les langues, déconcertant utilisateurs et experts

OpenAI a récemment suscité l’attention avec son modèle AI, o1, qui affiche des comportements surprenants. Observé dans des situations variées, il change de langue de manière inattendue au cours de son raisonnement, captivant ainsi utilisateurs et experts. Les théories sur ce phénomène abondent, sans explication officielle pour l’instant.

Le dernier modèle d’IA d’OpenAI, o1, a présenté des comportements inattendus qui ont capté l’attention à la fois des utilisateurs et des experts. Conçu pour des tâches de raisonnement, le modèle a été observé en train de changer de langue en plein raisonnement, même lorsque la requête initiale est formulée en anglais.

Des utilisateurs sur diverses plateformes ont rapporté des cas où le modèle o1 d’OpenAI commence son processus de raisonnement en anglais, mais change soudainement pour le chinois, le persan ou d’autres langues avant de fournir la réponse finale en anglais. Ce comportement a été constaté dans des scénarios allant de simples tâches de comptage à des exercices de résolution de problèmes complexes.

Un utilisateur de Reddit a commenté : « Il a commencé à penser en chinois au milieu, » tandis qu’un autre utilisateur sur X a posé la question : « Pourquoi a-t-il soudainement commencé à penser en chinois ? Aucune partie de la conversation (plus de 5 messages) n’était en chinois. »

Pourquoi le o1 pro a-t-il soudainement commencé à penser en chinois ? Aucune partie de la conversation (5+ messages) n’était en chinois… très intéressant… influence des données d’entraînement pic.twitter.com/yZWCzoaiit

– Rishab Jain (@RishabJainK) 9 janvier 2025

La communauté IA est en ébullition avec des théories pour expliquer ce comportement inhabituel. Bien qu’OpenAI n’ait pas encore publié de déclaration officielle, des experts ont formulé plusieurs hypothèses.

Certains, y compris le PDG de Hugging Face, Clément Delangue, spéculent que le phénomène pourrait être lié aux données d’entraînement utilisées pour o1. Ted Xiao, un chercheur chez Google DeepMind, a suggéré que la dépendance aux services de labellisation de données chinois tiers pour les données de raisonnement de niveau expert pourrait en être un facteur contributif.

« Pour des raisons de disponibilité et de coût de la main-d’œuvre experte, beaucoup de ces fournisseurs de données sont basés en Chine, » a déclaré Xiao. Cette théorie soutient que l’influence linguistique chinoise sur le raisonnement pourrait être le résultat du processus de labellisation utilisé lors de l’entraînement du modèle.

Ou l’impact du fait que les joueurs fermés utilisent de l’IA open-source (actuellement dominée par des acteurs chinois) comme des ensembles de données open-source ?

Les pays ou entreprises qui gagneront sur l’IA open-source auront un pouvoir et une influence immense sur l’avenir de l’IA. https://t.co/M8ZdYfWxNI

– clem 🤗 (@ClementDelangue) 10 janvier 2025

Une autre théorie suggère que o1 pourrait choisir les langues qu’il juge les plus efficaces pour résoudre des problèmes spécifiques. Matthew Guzdial, un chercheur en IA et professeur adjoint à l’Université de l’Alberta, a proposé une perspective différente lors d’une interview avec TechCrunch : « Le modèle ne sait pas ce qu’est une langue, ni que les langues sont différentes. Pour lui, tout n’est que texte, » a-t-il expliqué.

Cette vision implique que les changements de langue du modèle pourraient découler de ses mécanismes de traitement internes plutôt que d’un choix conscient fondé sur une compréhension linguistique.

Un nouveau phénomène apparaît : la dernière génération de modèles de base change souvent vers le chinois au milieu de raisonnements complexes.

Pourquoi ? Les laboratoires d’AGI comme OpenAI et Anthropic ont recours à des services de labellisation de données tiers pour des données de raisonnement de niveau doctorat pour la science, les mathématiques et la programmation ; pour… https://t.co/VllUIC9V91

– Ted Xiao (@xiao_ted) 9 janvier 2025

Tiezhen Wang, un ingénieur logiciel chez Hugging Face, suggère que les incohérences linguistiques pourraient découler des associations que le modèle a formées lors de l’entraînement. « Je préfère faire des maths en chinois car chaque chiffre ne constitue qu’une seule syllabe, ce qui rend les calculs précis et efficaces. Mais quand il s’agit de sujets comme le biais inconscient, je passe automatiquement à l’anglais, principalement parce que c’est là que j’ai d’abord appris et absorbé ces idées, » a expliqué Wang.

J’ai toujours pensé que parler plusieurs langues ne consiste pas seulement à utiliser deux langues – c’est aussi penser et murmurer dans la langue qui semble la plus naturelle en fonction du sujet et du contexte. Par exemple, je préfère faire des maths en chinois car chaque chiffre n’est qu’une seule syllabe, ce qui… https://t.co/yD2YNscWW5

– Tiezhen WANG (@Xianbao_QIAN) 13 janvier 2025

Bien que ces théories offrent des perspectives intrigantes sur les causes possibles du comportement de o1, Luca Soldaini, chercheur au Allen Institute for AI, souligne l’importance de la transparence dans le développement de l’IA.

« Ce type d’observation sur un système d’IA déployé est impossible à corroborer en raison de l’opacité de ces modèles. C’est l’une des nombreuses raisons pour lesquelles la transparence dans la manière dont les systèmes d’IA sont construits est fondamentale, » a déclaré Soldaini.

Le nouveau modèle d’IA d’OpenAI alterne les langues, déconcertant utilisateurs et experts

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Des rétines humaines « ressuscitées » ont réagi à la lumière dix heures après la mort

Vous avez un iPhone 17 les 3 meilleures coques chargeur et protection dont vous avez besoin

Tu n’es pas fou, il y a une raison pour laquelle la batterie de ton téléphone tient moins longtemps en été

Tout ce que vous pouvez faire pour résoudre les problèmes de l’application Cita Sanitaria avant de vous décourager

Mole l’outil gratuit pour nettoyer optimiser et surveiller votre Mac

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?