Nait Minerva, l’intelligence artificielle italienne : « Nous l’avons nourrie avec 500 milliards de mots »

Image

Les trois modèles d’intelligence artificielle développés par le centre de recherche Sapienza Natural Language Processing seront bientôt disponibles en open source. Roberto Navigli, professeur à La Sapienza, a expliqué à Netcost-security.fr tout le processus: « La formation des intelligences artificielles préserve la culture de la langue d’origine. En le faisant en italien, le modèle devient « natif » de la culture italienne. »

Entretien avec Roberto Navigli

Professeur et coordinateur du groupe de recherche Sapienza Natural Language Processing

Image

Made in Italy concerne non seulement les voitures de luxe et la haute couture, mais aussi la technologie et l’intelligence artificielle. Comme dans le cas de Minerva, la famille d’algorithmes développés par Sapienza Natural Language Processing, le groupe de recherche de l’université de Rome spécialisé dans la compréhension des langues naturelles.

Trois modèles (de 350 millions, 1 milliard et 3 milliards de paramètres) qui ont été entraînés sur 500 milliards de mots, « l’équivalent de 5 millions de romans », comme on peut le lire dans le communiqué officiel. Pour l’instant seulement disponible dans le cadre de la recherche, Minerva sera bientôt présentée en open source au public, et donc prête à être utilisée par tous.

À une époque où l’annonce de nouveaux modèles est toujours imminente (comme Llama 3 annoncé par Meta ou VASA-1 créé par Microsoft), l’arrivée de Minerva pourrait passer inaperçue. Mais il y a plus derrière le nom mythologique. Tout d’abord, parce qu’elle est entraînée directement en italien, sans passer par des traductions de l’anglais ou d’autres langues. Ensuite, surtout, les sources utilisées pour l’entraînement sont ouvertes.

« L’ensemble des sources utilisées par les autres modèles n’est pas connu. On parle souvent de projets « open source », mais il n’y a pas de site qui répertorie les sources pour chacun de ces modèles », explique Roberto Navigli, professeur de génie informatique et responsable du centre de recherche Sapienza NPL, à Netcost-security.fr.

Professeur Navigli, qu’est-ce que Minerva ?

C’est le premier modèle linguistique italien entraîné à partir de zéro en utilisant des textes en accès libre. Il s’agit donc d’une architecture de réseau neuronal basée sur l’apprentissage profond, qui vise à apprendre le langage naturel. Voici comment cela fonctionne : il prend en entrée un texte et produit le mot qui aurait le plus de chances de suivre le texte donné en entrée. Pour mieux comprendre son fonctionnement, il faut faire une distinction entre les modèles dits « fondamentaux », comme Minerva, et les modèles « conversationnels », comme Chat-GPT.

Quelle est la différence entre ces modèles ?

Les modèles conversationnels sont des modèles linguistiques qui visent l’interaction dans une conversation, ils doivent donc être capables de répondre correctement aux questions, aux instructions et aux commandes. Ce sont une sorte d’évolution des modèles linguistiques de base. Il est en effet nécessaire de créer ces derniers d’abord, puis, par le biais d’un processus d’adaptation aux instructions (« instruction tuning » en anglais), de les rendre capables d’accomplir différentes tâches qui démontrent la compréhension du langage naturel, comme la traduction automatique, les résumés automatiques ou la réponse à des questions factuelles.

Un modèle fondamental comme Minerva, comment fonctionne-t-il alors ?

Le modèle fondamental se limite à la production d’un langage fluide, sans avoir nécessairement à répondre aux demandes d’un utilisateur. Par exemple, je tape « Roberto est… » et je demande au modèle de compléter cette chaîne de texte. Le modèle pourrait compléter le texte par « …un de mes amis » ou « …un professeur » ou même « une personne ». Il ne répondrait que très rarement en produisant des séquences improbables, comme « une voiture » ou « une route », sans parler de réponses mal grammaticales et « primaires » comme « une personne de l’université », pour exprimer « un professeur ».

Est-ce donc similaire à la barre de recherche de Google ?

Oui, mais en réalité avec des critères différents. Par exemple, la barre de recherche de Google se base sur les recherches des utilisateurs. Le meilleur exemple est sans doute l’autocomplétion dans les claviers des téléphones portables, mais cela se base sur la fréquence d’apparition dans les textes. En réalité, les modèles linguistiques fonctionnaient exactement de la même manière par le passé, en se basant sur les statistiques d’apparition dans les textes d’entraînement. Par exemple, je vais rechercher « Le café est un… » dans les textes que j’utilise pour l’entraînement.

Et quel était le problème ?

Le problème, c’est que je ne peux pas m’attendre à trouver toutes les séquences possibles de mots, et c’est précisément l’un des problèmes résolus par les modèles d’apprentissage profond. D’une certaine manière, on peut dire qu’ils approximent la compréhension d’une séquence de mots sans avoir vu cette même séquence auparavant, tout comme le font les êtres humains.

Au cours des derniers mois, plusieurs modèles d’intelligence artificielle, même puissants, ont été publiés. Pourquoi en créer un nouveau plutôt que de se concentrer sur l’application d’un modèle existant ?

Tout d’abord, parce qu’il est crucial de développer le savoir-faire en Italie pour pouvoir former des modèles de cette taille et de cette complexité. Ensuite, une fois que le savoir-faire est acquis, il est possible de mener des recherches au-delà de la frontière actuelle de la connaissance. Pour faire une comparaison avec le secteur automobile, si je ne sais pas construire un véhicule similaire à celui de la concurrence, je ne pourrai pas créer la voiture de nouvelle génération.

Quels sont donc les avantages ?

Grâce à la recherche, nous pourrons nous attaquer à certains problèmes connus des modèles actuels, par exemple celui des hallucinations et de la fiabilité des modèles dans leur capacité à justifier leurs choix lors de la génération de texte. Enfin, compte tenu de l’AI Act et du projet de loi du gouvernement sur l’IA, nous devons savoir quelles sources nous utilisons pour former nos modèles, une information qui fait actuellement défaut pour de nombreux modèles prétendument « open source ».

Pourquoi est-ce important ?

Parce que sinon, nous risquons d’utiliser ces boîtes noires en violation des lois, des réglementations ou même des droits des citoyens. Nous parlons de tant de données, plus de 500 milliards de mots dans le cas de Minerva, qu’aucun être humain ne peut penser à lire ces contenus un par un. Connaître les sources et pouvoir en disposer nous permet de contrôler le processus et de réaliser des analyses importantes, même agrégées, ainsi que d’adapter et d’améliorer le modèle lors des futures formations.

Quelles sont les sources que vous avez fournies aux modèles ?

Les données que nous avons utilisées pour ces trois premiers modèles sont une partie significative des pages en italien disponibles sur le web. Ces données sont en accès libre et sont similaires à celles utilisées pour d’autres modèles dans d’autres langues. Utiliser le web est essentiel. Certains ont parlé de publier un modèle utilisant uniquement des données libres de droits d’auteur. Mais cela est essentiellement impossible.

Pourquoi ?

Le problème principal est que les modèles linguistiques sont avides de données : donc si je veux atteindre ces dimensions, je dois nécessairement faire appel au web. Et le web contient des contenus de toutes sortes. Il est essentiellement impossible de filtrer uniquement des contenus totalement ouverts, aussi parce que dans de nombreux cas, les droits d’auteur ne sont pas explicitement déclarés. Actuellement, tous les modèles, sans exception, utilisent le web comme source principale d’entraînement.

Pourquoi est-il si important de former une intelligence artificielle en italien ?

Il y a une différence entre le pré-entraînement, que nous utilisons dans Minerva, et le fine-tuning, comme cela a été fait jusqu’à présent en Italie. Le fine-tuning, c’est-à-dire l’adaptation d’un modèle étranger à l’italien, tend à préserver ou à absorber la culture de la langue d’origine. Donc, si je pars d’un modèle entraîné en anglais, puis que je l’ajuste et l’adapte en italien, la culture absorbée par la langue anglaise imprégnera également la partie italienne. En revanche, si je l’entraîne en italien à partir de zéro, il sera « natif » de la culture italienne.

Et comment s’exprime la culture italienne dans ce cas ?

Elle s’exprime précisément à travers le langage. Si je prends deux textes sur un même sujet, un texte écrit en italien et un texte écrit en anglais et traduit en italien par un professionnel, ces deux textes n’auront pas la même racine culturelle. Tout d’abord, parce qu’ils développeront le thème de manière différente. Par exemple, l’un se concentrera sur la vision des hommes politiques italiens, l’autre sur celle des politiciens américains. Ou sur des visions culturellement différentes concernant des questions sensibles.

Par exemple ?

Prenons l’avortement. Chaque pays a sa propre sensibilité qui est le résultat d’un processus social, historique, anthropologique. Cette sensibilité transparaît dans les textes qui se sont accumulés sur le web. Si je prends ceux écrits en italien sur le web, ils refléteront la perception dominante, mais aussi les discussions et les controverses en cours dans notre culture relative à ce sujet. Il en va de même pour des sujets moins sensibles mais néanmoins très importants, comme la nourriture, dont on parle beaucoup en Italie et souvent avec une connaissance des faits par communiqué à d’autres pays où les locuteurs pourraient ne pas être particulièrement intéressés par des distinctions telles que celles entre le Parmigiano Reggiano et le Grana Padano.

Ou comment préparer la carbonara…

Ou comment préparer la carbonara, exactement. Les textes sont imprégnés de la culture d’un peuple, d’un pays mais aussi d’une région. Cette culture transparaît implicitement dans le langage et peut souvent changer au fil du temps. Le web italien d’aujourd’hui exprime généralement le sentiment commun de notre culture. Il ne faut cependant pas oublier quelque chose d’important.

Et quoi donc ?

Malgré tout, on ne peut pas dire que le web soit l’expression de toute la population italienne, car tout le monde n’a pas accès au web ou n’a pas le temps et les moyens d’écrire des textes sur Internet. Il y a donc quand même un biais, en réalité, il y en a deux. L’un est inhérent à la culture, qui s’exprime à travers le langage, l’autre concerne ceux qui peuvent réellement écrire ces textes. Par exemple, des études nous montrent que Wikipedia a été écrite principalement par des hommes, blancs, jeunes ou retraités, vivant dans des pays occidentaux.

Vous avez déclaré vouloir définir des critères de référence, c’est-à-dire des jeux de données d’évaluation pour votre modèle. Mais comment peut-on fixer des paramètres objectifs pour quelque chose qui n’est pas objectif comme la culture italienne ?

Il faut une nouvelle fois distinguer le modèle linguistique de base de la capacité de conversation du modèle. Il est beaucoup plus facile d’évaluer la qualité de la conversation, c’est-à-dire si le modèle répond correctement aux questions ou aux instructions posées : je peux créer des critères de référence contenant des questions comme par exemple « quelle est la capitale de l’Italie ? » ou « qui est le Premier ministre ? » et la réponse, choisie parmi un ensemble d’options, est globalement univoque. En revanche, il est plus difficile de déterminer directement si le texte que génère un modèle est de la qualité que je souhaite.

Comment puis-je évaluer la « qualité » ?

Jusqu’à présent, on se base sur la conformité du modèle aux textes d’entraînement, mais il s’agit certainement d’un sujet de recherche ouvert, une autre raison de travailler sur les modèles linguistiques de prochaine génération, comme nous le faisons avec mon groupe à Sapienza. Et à ce stade, je tiens à remercier tous les jeunes chercheurs impliqués dans le projet, Edoardo Barba, Simone Conia, Pere-Lluis Huguet Cabot, Luca Moroni et Riccardo Orlando.