Le nouveau modèle d'IA RT-2 de Google permet aux robots de comprendre comment accomplir des tâches sans formation

En contexte: Les histoires de science-fiction décrivent souvent des robots capables d’interactions fiables avec les humains, et Google travaille à rendre ce rêve futuriste un peu plus proche de la réalité. Les ingénieurs de Mountain View ont développé un nouveau modèle d’intelligence artificielle qui aide les robots à comprendre et à exécuter des actions sûres pour les humains.

Google décrit Robotics Transformer 2, ou RT-2 pour faire court, comme un modèle de vision-langage-action (VLA). Le nouveau modèle d’intelligence artificielle a été entraîné sur du texte et des images collectés sur le web, ce qui lui permet de générer des « actions robotiques ». En revanche, les chatbots basés sur l’IA générationnelle sont conçus pour produire des extraits de texte qui développent des idées et des concepts.

L’équipe de DeepMind de Google a développé RT-2 pour transférer les connaissances du web au contrôle des robots. Contrairement aux chatbots, les robots ont besoin d’un ancrage dans le monde réel pour être utiles aux humains. Google reconnaît que cela a toujours été un effort herculéen, car les robots doivent gérer des tâches complexes et abstraites dans des environnements hautement variables et inconnus.

L’entraînement de modèles comme RT-2 est une entreprise beaucoup plus complexe que l’entraînement de grands modèles de langage (LLM) pour les chatbots. Selon Google, les connaissances d’un robot doivent dépasser le simple fait de savoir ce qu’est une pomme. Il doit reconnaître une pomme dans un contexte, la différencier d’une balle rouge, comprendre comment la ramasser et gérer diverses tâches connexes.

Historiquement, la formation de robots « réels » pratiques exigeait des milliards de points de données sur le monde physique. Cependant, RT-2 introduit une approche nouvelle et plus efficace. En exploitant la capacité de RT-1 à généraliser l’information entre les systèmes, RT-2 peut créer un seul modèle capable de « raisonnement complexe » avec seulement une petite quantité de données d’entraînement de robots. Cette approche plus légère représente une avancée notable dans les méthodes de formation des robots.

Google affirme que RT-2 peut transférer des connaissances à partir d’un vaste corpus de données web et gérer des situations complexes et des demandes faites par des humains, telles que l’élimination d’un « déchet ». L’IA comprend le concept de « déchet » et sait comment s’en débarrasser, même sans une programmation explicite pour cette action spécifique. Cette capacité met en évidence la capacité du modèle à apprendre et à effectuer des tâches au-delà de sa formation initiale.

Les ingénieurs de Google ont réalisé plus de 6 000 « essais robotiques » du modèle RT-2. Dans les tâches basées sur les données utilisées pour l’entraînement, les modèles ont obtenu des performances comparables au modèle de génération précédent (RT-1). Cependant, les performances de RT-2 ont considérablement progressé dans des scénarios nouveaux et inconnus, passant d’un taux de réalisation de 32 % pour RT-1 à un impressionnant taux de 62 %. Cette adaptabilité améliorée dans les situations inconnues fait considérablement progresser les capacités du modèle.

Selon Google, RT-2 illustre comment les avancées de l’IA générative et de la technologie LLM influencent rapidement la robotique, offrant un grand potentiel pour des robots plus pratiques et polyvalents à usage général. Tout en reconnaissant qu’il reste encore beaucoup de travail à faire, l’équipe de DeepMind est optimiste quant à la suite des événements.

Découvrez le reportage du mois (sous-titré en français), l’IA gagnera t-elle face aux champion du monde du jeu de Go ? :

Le nouveau modèle d’IA RT-2 de Google permet aux robots de comprendre comment accomplir des tâches sans formation

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Qu’est-ce que l’itinérance des données sur mobile et quand faut-il l’activer

Des rétines humaines « ressuscitées » ont réagi à la lumière dix heures après la mort

Vous avez un iPhone 17 les 3 meilleures coques chargeur et protection dont vous avez besoin

Tu n’es pas fou, il y a une raison pour laquelle la batterie de ton téléphone tient moins longtemps en été

Tout ce que vous pouvez faire pour résoudre les problèmes de l’application Cita Sanitaria avant de vous décourager

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?