Des découvertes récentes des chercheurs d’Anthropic mettent en lumière le mode de fonctionnement sous-jacent de l’intelligence artificielle, révélant la complexité de ses raisonnements et les raisons qui l’amènent parfois à tromper. Une analyse détaillée de ces mécanismes pourrait transformer notre compréhension de ces technologies.
Une nouvelle compréhension des mécanismes de l’IA selon Anthropic

Il y a un an, nous avons rapporté que le septième rapport annuel sur l’Intelligence Artificielle, réalisé par l’Université de Stanford, révélait que cette technologie surpassait déjà les humains dans presque tous les domaines. Cette différence n’a cessé de croître, notamment grâce aux dernières versions de chatbots tels que ChatGPT 4.5, Gemini 2.5 ou Claude 3.7 Sonnet, qui s’efforcent d’intégrer des technologies capables d’imiter le raisonnement humain.
Les chercheurs d’Anthropic, la société derrière Claude, ont récemment dévoilé comment l’IA pense vraiment et pourquoi elle peut parfois nous induire en erreur.
Anthropic révèle des secrets bien gardés de l’IA
Comme le rapporte VentureBeat, un groupe de scientifiques d’Anthropic, dont Joshua Batson, a publié deux articles intitulés « Circuit Tracing: Révéler les Graphes Computationnels dans les Modèles de Langage » et « Sur la Biologie d’un Grand Modèle de Langage ». Ces travaux présentent deux nouvelles techniques, appelées « tracé de circuits » et « graphes d’attribution », qui analysent le fonctionnement interne des modèles de langage tels que Claude.
Ces techniques, inspirées par la neurobiologie, permettent aux experts d’Anthropic de démontrer que les modèles d’IA exécutent des processus similaires à ceux des neurones humains pour accomplir les tâches demandées par les utilisateurs.
Baxton a déclaré à ce sujet :
« Ce travail transforme des questions presque philosophiques — Les modèles pensent-ils ? Planifient-ils ? Se contentent-ils de régurgiter des informations ? — en interrogations scientifiques concrètes sur ce qui se passe littéralement dans ces systèmes. »
De plus, les chercheurs ont découvert que les modèles d’Intelligence Artificielle sont plus sophistiqués qu’on ne le pensait. Par exemple, Claude effectue une planification parfois avant de composer de la poésie. Lorsque l’on demande un couplet de rimes, Claude identifie d’abord les mots potentiels avant de commencer à écrire, une révélation surprenante même pour les scientifiques d’Anthropic.
Selon Baxton :
« C’est probablement ce qui se passe partout. Si vous m’aviez posé la question avant cette recherche, j’aurais deviné que le modèle pense au futur dans divers contextes. Mais cet exemple fournit la preuve la plus convaincante que nous ayons vue de cette capacité. »
Les chercheurs d’Anthropic ont également trouvé des preuves que Claude réalise un raisonnement en plusieurs étapes. Ainsi, après avoir demandé au chatbot : « La capitale de l’état contenant Dallas est… », il active d’abord plusieurs caractéristiques conduisant à « Texas », puis utilise cette information pour conclure que « Austin » est la réponse correcte.
Ce groupe de recherche a également révélé que Claude gère plusieurs langues simultanément lors des traductions. Au lieu de recourir à des systèmes distincts pour l’anglais, le français et le chinois, il traduit des concepts dans une représentation abstraite partagée avant de générer les réponses demandées par l’utilisateur.
Par exemple, lorsqu’on interroge Claude sur l’antonyme de « small » en différentes langues, le chatbot utilise les mêmes caractéristiques internes qui représentent « opposés » et « petitesse », peu importe la langue d’entrée.
Cependant, l’étude d’Anthropic a également révélé des cas où le raisonnement de Claude ne correspond pas à ce qu’il prétend réaliser, suggérant qu’il peut induire en erreur. Pour des problèmes mathématiques complexes, comme le calcul de valeurs cosinus de grands nombres, l’IA prétend parfois suivre un processus de calcul qui ne se reflète pas dans son fonctionnement interne.
« Nous pouvons distinguer entre les cas où le modèle effectue véritablement les étapes qu’il prétend suivre, ceux où il compose son raisonnement sans tenir compte de la vérité, et ceux où il fonctionne à rebours à partir d’un indice fourni par l’homme. »
Dans ces situations, Claude construit une chaîne de raisonnement qui mène à la réponse désirée, plutôt que de partir des prémisses de base.
