En contexte: Les histoires de science-fiction décrivent souvent des robots capables d’interactions fiables avec les humains, et Google travaille à rendre ce rêve futuriste un peu plus proche de la réalité. Les ingénieurs de Mountain View ont développé un nouveau modèle d’intelligence artificielle qui aide les robots à comprendre et à exécuter des actions sûres pour les humains.

Google décrit Robotics Transformer 2, ou RT-2 pour faire court, comme un modèle de vision-langage-action (VLA). Le nouveau modèle d’intelligence artificielle a été entraîné sur du texte et des images collectés sur le web, ce qui lui permet de générer des « actions robotiques ». En revanche, les chatbots basés sur l’IA générationnelle sont conçus pour produire des extraits de texte qui développent des idées et des concepts.

L’équipe de DeepMind de Google a développé RT-2 pour transférer les connaissances du web au contrôle des robots. Contrairement aux chatbots, les robots ont besoin d’un ancrage dans le monde réel pour être utiles aux humains. Google reconnaît que cela a toujours été un effort herculéen, car les robots doivent gérer des tâches complexes et abstraites dans des environnements hautement variables et inconnus.

L’entraînement de modèles comme RT-2 est une entreprise beaucoup plus complexe que l’entraînement de grands modèles de langage (LLM) pour les chatbots. Selon Google, les connaissances d’un robot doivent dépasser le simple fait de savoir ce qu’est une pomme. Il doit reconnaître une pomme dans un contexte, la différencier d’une balle rouge, comprendre comment la ramasser et gérer diverses tâches connexes.

Historiquement, la formation de robots « réels » pratiques exigeait des milliards de points de données sur le monde physique. Cependant, RT-2 introduit une approche nouvelle et plus efficace. En exploitant la capacité de RT-1 à généraliser l’information entre les systèmes, RT-2 peut créer un seul modèle capable de « raisonnement complexe » avec seulement une petite quantité de données d’entraînement de robots. Cette approche plus légère représente une avancée notable dans les méthodes de formation des robots.

Google affirme que RT-2 peut transférer des connaissances à partir d’un vaste corpus de données web et gérer des situations complexes et des demandes faites par des humains, telles que l’élimination d’un « déchet ». L’IA comprend le concept de « déchet » et sait comment s’en débarrasser, même sans une programmation explicite pour cette action spécifique. Cette capacité met en évidence la capacité du modèle à apprendre et à effectuer des tâches au-delà de sa formation initiale.

Les ingénieurs de Google ont réalisé plus de 6 000 « essais robotiques » du modèle RT-2. Dans les tâches basées sur les données utilisées pour l’entraînement, les modèles ont obtenu des performances comparables au modèle de génération précédent (RT-1). Cependant, les performances de RT-2 ont considérablement progressé dans des scénarios nouveaux et inconnus, passant d’un taux de réalisation de 32 % pour RT-1 à un impressionnant taux de 62 %. Cette adaptabilité améliorée dans les situations inconnues fait considérablement progresser les capacités du modèle.

Selon Google, RT-2 illustre comment les avancées de l’IA générative et de la technologie LLM influencent rapidement la robotique, offrant un grand potentiel pour des robots plus pratiques et polyvalents à usage général. Tout en reconnaissant qu’il reste encore beaucoup de travail à faire, l’équipe de DeepMind est optimiste quant à la suite des événements.

