Meta dévoile un nouveau modèle de langage conçu pour la communauté de recherche en IA

Meta unveils new language model designed for the AI research community

Quelque chose à espérer : des géants de la technologie comme Microsoft et Google, aux côtés d’OpenAI, ont fait la une des journaux avec leurs recherches et leurs progrès innovants en matière d’IA. Jamais en reste, Mark Zuckerberg et Meta ont jeté leur chapeau dans le ring de l’IA avec la sortie de leur nouveau modèle de langage naturel, LLaMA. Le modèle surpasserait GPT-3 dans la plupart des benchmarks, ne représentant qu’un dixième de la taille totale de GPT-3.

Annoncé vendredi dans un article de blog, le Large Language Model Meta AI (LLaMA) de Meta est conçu pour les équipes de recherche de toutes tailles. À seulement 10% de la taille du GPT-3 (transformateur génératif pré-formé de troisième génération), le modèle LLaMA fournit une ressource petite mais très performante qui peut être exploitée même par les plus petites équipes de recherche, selon Meta.

Cette taille de modèle garantit que les petites équipes aux ressources limitées peuvent toujours utiliser le modèle et contribuer aux avancées globales de l’IA et de l’apprentissage automatique.

L’approche de Meta avec LLaMA est nettement différente de celle de ChatGPT d’OpenAI, de Bard de Google ou de Prometheus de Microsoft. La société publie le nouveau modèle sous une licence non commerciale, réitérant son engagement déclaré envers l’équité et la transparence de l’IA. L’accès pour les chercheurs d’organisations gouvernementales, universitaires et de recherche de l’industrie intéressés à tirer parti du modèle devra demander une licence et un accès accordé au cas par cas.

Les chercheurs qui obtiennent avec succès une licence auront accès au petit modèle de fondation hautement accessible de LLaMA. Meta rend LLaMA disponible dans plusieurs paramètres de taille, notamment 7B, 13B, 33B et 65B. La société a également publié la carte de modèle LLaMA sur GitHub, qui fournit des détails supplémentaires sur le modèle lui-même et les sources de données de formation publiques de Meta.

Selon la carte, le modèle a été formé à l’aide de CCNet (67 %), C4 (15 %), GitHub (4,5 %), Wikipedia (4,5 %), Books (4,5 %), ArXiv (2,5 %) et Stack Exchange ( 2 %).

Meta devoile un nouveau modele de langage concu pour la

Meta était plus que franc sur l’état de LLaMA et leur intention de faire évoluer davantage le modèle. Bien qu’il s’agisse d’un modèle de base pouvant être adapté à un certain nombre de cas d’utilisation différents, la société a reconnu que les inconnues liées aux biais intentionnels et aux commentaires toxiques constituent toujours une menace qui doit être gérée. L’entreprise espère que le partage de ce modèle petit mais flexible conduira à de nouvelles approches qui peuvent limiter, ou dans certains cas éliminer, les voies potentielles d’exploitation du modèle.

Le document de recherche LLaMA complet est disponible en téléchargement et en révision sur le blog Meta Research. Les personnes intéressées à demander un accès peuvent le faire sur le formulaire de demande en ligne de Meta.


Découvrez le reportage du mois (sous-titré en français), l’IA gagnera t-elle face aux champion du monde du jeu de Go ? :