Ils ont découvert comment pense vraiment l'IA, mais parfois elle ment

Des découvertes récentes des chercheurs d’Anthropic mettent en lumière le mode de fonctionnement sous-jacent de l’intelligence artificielle, révélant la complexité de ses raisonnements et les raisons qui l’amènent parfois à tromper. Une analyse détaillée de ces mécanismes pourrait transformer notre compréhension de ces technologies.

Une nouvelle compréhension des mécanismes de l’IA selon Anthropic

Ils ont découvert comment l'IA pense vraiment. Le problème est qu'elle ment parfois. — Nous savons enfin comment l’Intelligence Artificielle pense et pourquoi elle ment parfois.

Il y a un an, nous avons rapporté que le septième rapport annuel sur l’Intelligence Artificielle, réalisé par l’Université de Stanford, révélait que cette technologie surpassait déjà les humains dans presque tous les domaines. Cette différence n’a cessé de croître, notamment grâce aux dernières versions de chatbots tels que ChatGPT 4.5, Gemini 2.5 ou Claude 3.7 Sonnet, qui s’efforcent d’intégrer des technologies capables d’imiter le raisonnement humain.

Les chercheurs d’Anthropic, la société derrière Claude, ont récemment dévoilé comment l’IA pense vraiment et pourquoi elle peut parfois nous induire en erreur.

Anthropic révèle des secrets bien gardés de l’IA

Comme le rapporte VentureBeat, un groupe de scientifiques d’Anthropic, dont Joshua Batson, a publié deux articles intitulés « Circuit Tracing: Révéler les Graphes Computationnels dans les Modèles de Langage » et « Sur la Biologie d’un Grand Modèle de Langage ». Ces travaux présentent deux nouvelles techniques, appelées « tracé de circuits » et « graphes d’attribution », qui analysent le fonctionnement interne des modèles de langage tels que Claude.

Ces techniques, inspirées par la neurobiologie, permettent aux experts d’Anthropic de démontrer que les modèles d’IA exécutent des processus similaires à ceux des neurones humains pour accomplir les tâches demandées par les utilisateurs.

Baxton a déclaré à ce sujet :

« Ce travail transforme des questions presque philosophiques — Les modèles pensent-ils ? Planifient-ils ? Se contentent-ils de régurgiter des informations ? — en interrogations scientifiques concrètes sur ce qui se passe littéralement dans ces systèmes. »

De plus, les chercheurs ont découvert que les modèles d’Intelligence Artificielle sont plus sophistiqués qu’on ne le pensait. Par exemple, Claude effectue une planification parfois avant de composer de la poésie. Lorsque l’on demande un couplet de rimes, Claude identifie d’abord les mots potentiels avant de commencer à écrire, une révélation surprenante même pour les scientifiques d’Anthropic.

Selon Baxton :

« C’est probablement ce qui se passe partout. Si vous m’aviez posé la question avant cette recherche, j’aurais deviné que le modèle pense au futur dans divers contextes. Mais cet exemple fournit la preuve la plus convaincante que nous ayons vue de cette capacité. »

Les chercheurs d’Anthropic ont également trouvé des preuves que Claude réalise un raisonnement en plusieurs étapes. Ainsi, après avoir demandé au chatbot : « La capitale de l’état contenant Dallas est… », il active d’abord plusieurs caractéristiques conduisant à « Texas », puis utilise cette information pour conclure que « Austin » est la réponse correcte.

Ce groupe de recherche a également révélé que Claude gère plusieurs langues simultanément lors des traductions. Au lieu de recourir à des systèmes distincts pour l’anglais, le français et le chinois, il traduit des concepts dans une représentation abstraite partagée avant de générer les réponses demandées par l’utilisateur.

Par exemple, lorsqu’on interroge Claude sur l’antonyme de « small » en différentes langues, le chatbot utilise les mêmes caractéristiques internes qui représentent « opposés » et « petitesse », peu importe la langue d’entrée.

Cependant, l’étude d’Anthropic a également révélé des cas où le raisonnement de Claude ne correspond pas à ce qu’il prétend réaliser, suggérant qu’il peut induire en erreur. Pour des problèmes mathématiques complexes, comme le calcul de valeurs cosinus de grands nombres, l’IA prétend parfois suivre un processus de calcul qui ne se reflète pas dans son fonctionnement interne.

« Nous pouvons distinguer entre les cas où le modèle effectue véritablement les étapes qu’il prétend suivre, ceux où il compose son raisonnement sans tenir compte de la vérité, et ceux où il fonctionne à rebours à partir d’un indice fourni par l’homme. »

Dans ces situations, Claude construit une chaîne de raisonnement qui mène à la réponse désirée, plutôt que de partir des prémisses de base.

Ils ont découvert comment pense vraiment l’IA, mais parfois elle ment

Une nouvelle compréhension des mécanismes de l’IA selon Anthropic

Anthropic révèle des secrets bien gardés de l’IA

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Tu n’es pas fou, il y a une raison pour laquelle la batterie de ton téléphone tient moins longtemps en été

Tout ce que vous pouvez faire pour résoudre les problèmes de l’application Cita Sanitaria avant de vous décourager

Mole l’outil gratuit pour nettoyer optimiser et surveiller votre Mac

Photoshop, Lightroom et sept autres applications pour retoucher vos photos comme un pro

China réussit à récupérer sa fusée ! La suprématie spatiale de Elon Musk menacée

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?