OpenAI a formé avec succès un bot Minecraft en utilisant 70 000 heures de vidéos de gameplay

Openai A Formé Avec Succès Un Bot Minecraft En Utilisant

Pourquoi c’est important : Minecraft peut ne pas sembler être un outil important qui prend en charge la recherche avancée sur l’IA. Après tout, qu’est-ce qui pourrait être si important pour apprendre à une machine à jouer à un jeu bac à sable sorti il ​​y a plus de dix ans ? Sur la base des efforts récents d’OpenAI, un bot Minecraft bien formé est plus pertinent pour l’avancement de l’IA que la plupart des gens ne le pensent.

OpenAI s’est toujours concentré sur les progrès de l’intelligence artificielle (IA) et de l’apprentissage automatique qui profitent à l’humanité. Récemment, la société a formé avec succès un bot pour jouer à Minecraft en utilisant plus de 70 000 heures de vidéos de gameplay. La réalisation est bien plus qu’un simple bot jouant à un jeu. Il marque un pas de géant dans l’apprentissage automatique avancé utilisant l’observation et l’imitation.

Le bot d’OpenAI est un excellent exemple d’apprentissage par imitation (également appelé « apprentissage supervisé ») en action. Contrairement à l’apprentissage par renforcement, où un agent d’apprentissage est récompensé après avoir atteint un objectif par essais et erreurs, l’apprentissage par imitation entraîne des réseaux de neurones à effectuer des tâches spécifiques en regardant les humains les accomplir. Dans ce cas, OpenAI a tiré parti des vidéos et des didacticiels de gameplay disponibles pour apprendre à son bot à exécuter des séquences complexes dans le jeu qui nécessiteraient environ 24 000 actions individuelles pour le joueur typique.

OpenAI a forme avec succes un bot Minecraft en utilisant

L’apprentissage par imitation nécessite que les entrées vidéo soient étiquetées pour fournir le contexte de l’action et le résultat observé. Malheureusement, cette approche peut être très laborieuse, ce qui se traduit par des ensembles de données disponibles limités. Cette pénurie d’ensembles de données disponibles limite finalement la capacité de l’agent à apprendre par l’observation.

Plutôt que de se lancer dans un vaste exercice de marquage manuel des données, l’équipe de recherche d’OpenAI a utilisé une approche spécifique, connue sous le nom de Video Pre-Training (VPT), ​​pour augmenter considérablement le nombre de vidéos étiquetées disponibles. Les chercheurs ont initialement capturé 2 000 heures de jeu Minecraft annoté et l’ont utilisé pour former un agent à associer des actions spécifiques à des résultats spécifiques à l’écran. Le modèle résultant a ensuite été utilisé pour générer automatiquement des étiquettes pour 70 000 heures de contenu Minecraft précédemment non étiqueté facilement disponible en ligne, fournissant au bot Minecraft un ensemble de données beaucoup plus important à examiner et à imiter.

L’ensemble de l’exercice prouve la valeur potentielle des référentiels vidéo disponibles, tels que YouTube, en tant que ressource de formation à l’IA. Les scientifiques de l’apprentissage automatique pourraient utiliser des vidéos disponibles et correctement étiquetées pour entraîner l’IA à effectuer des tâches spécifiques, allant de la simple navigation sur le Web à l’aide aux utilisateurs ayant des besoins physiques réels.