David Bamman enseigne à UC Berkeley. Dans une recherche publiée en avant-première sur Business Insider, il a révélé quels romans ChatGPT connaît le mieux. Ces livres font probablement partie des textes sur lesquels l’intelligence artificielle s’est entraînée.

Que lit ChatGPT avant de s’endormir ? Ou alors qu’il est dans le métro pour aller travailler, ou même alors qu’il est sur la plage sous un parasol ? Il n’y a qu’une seule réponse à ces questions : rien. Depuis qu’il a été dévoilé au grand public, ChatGPT a montré qu’il s’agissait d’une intelligence artificielle au potentiel énorme. Si énorme que quelqu’un a même pensé à l’humaniser, en proposant des tests pour voir s’il était capable de développer une pensée autonome. Bien sûr, ce n’est pas le cas. ChatGPT est juste une machine très efficace.

Cependant, comprendre comment cette machine a appris à fonctionner si efficacement peut être intéressant, également pour mieux étudier tous les logiciels d’intelligence artificielle auxquels nous aurons affaire dans les années à venir. David Bamman enseigne à l’Université de Californie à Berkeley. Ici, elle a commencé à étudier quels romans ont été utilisés pour construire l’immense bibliothèque de textes à partir de laquelle ChatGPT obtient ses informations chaque fois que nous demandons quelque chose. La version utilisée par Bamman pour ses études est GPT-4. Pour le moment, les résultats de la recherche sont encore en pré-impression, ils doivent être vérifiés et publiés dans un magazine spécialisé.

Comment la recherche a été menée

Bamman a choisi d’utiliser la même méthode pour ChatGPT qu’un professeur de littérature utiliserait pour déterminer si un de ses étudiants a vraiment lu la liste des livres de vacances d’été ou s’il a juste regardé deux choses sur Wikipedia la nuit précédente. Avec son équipe de chercheurs, il a commencé à interroger massivement ChatGPT sur une bonne quantité de textes. Dans le jargon cette méthode s’appelle le Reverse Engineering : on part du résultat pour arriver à comprendre le processus derrière celui-ci.

Bamman a décidé de se concentrer uniquement sur les romans. Il est pratiquement impossible de déterminer d’où proviennent toutes les données des archives de ChatGPT, y compris les articles scientifiques et les pages Wikipédia. Selon certains chercheurs, l’intégralité de l’archive pourrait se situer dans le domaine des pétaoctets, le prochain ordre de grandeur après les téraoctets. À la fin de ses questions, Bamman a compilé la liste des romans que ChatGPT connaît le mieux. Ces titres ont très probablement été introduits dans le logiciel pour développer des connaissances en syntaxe et avoir des informations de base sur la culture générale et la littérature.

ChatGPT est un lecteur fantastique

En faisant défiler les titres, ChatGPT ressemble à un jeune adulte moyennement éduqué, résidant aux États-Unis, qui au cours de sa vie de lecteur a développé une belle passion pour la fiction fantastique. Un profil qui n’est pas si différent de celui des informaticiens qui ont réellement programmé le logiciel. Le livre qui a enregistré le meilleur score est Harry Potter à l’école des sorciers, l’ancêtre de la saga signée JK Rowling. La deuxième place est 1984 de George Orwll, la troisième est la Communauté de l’Anneau, cette fois l’ancêtre de la saga JRR Tolkien.

Mais dans la liste on retrouve aussi d’autres grands classiques de la culture nerd. Il y a bien sûr Douglas Adams avec Le Guide du voyageur galactique, Frank Herbert et sa Dune, George RR Martin et The Game of Thrones et Philip. K.. Dick avec Les androïdes rêvent-ils de moutons électriques ?. Il y a aussi des allusions à la littérature américaine comme Fury de John Steinbeck ou des passages de la littérature anglaise avec Lord of the Flies de William Golding.

Pourquoi il est important de connaître les données qui composent une intelligence artificielle

Celui proposé par Bamman dans ses recherches n’est pas qu’un jeu littéraire. Il s’est entretenu avec Business Insider, dévoilant un aperçu de ses résultats : « Les sources sur lesquelles ces modèles ont été formés vont influencer le type de modèles dont ils disposent et les valeurs qu’ils présentent. » Les archives avec lesquelles ChatGPT est formé sont actuellement secrètes mais il est bien clair que plus ces logiciels seront influents sur nos vies, plus il faudra comprendre les mécanismes avec lesquels ils sont formés. Idéalement, pour chaque réponse, il serait possible de retracer les sources et les processus utilisés par l’intelligence artificielle pour sélectionner certaines informations au détriment d’autres.

