Un nouvel avancement dans le domaine de l’intelligence artificielle permet aux machines de créer des représentations internes du monde physique. En parallèle de leur fonction de traitement, ces modèles présentent des potentiels d’application prometteurs dans différents secteurs, marquant un tournant significatif dans la façon dont la technologie interagit avec son environnement.
Les « world models » créent des cartes mentales de la réalité physique pour que l’IA puisse raisonner sur des objets et mouvements, dépassant les limitations des modèles de langage actuels

Les « world models » représentent la découverte de comment l’IA peut « penser » sur le monde réel en créant ses propres cartes mentales d’objets, d’espaces et de physique. Cette nouvelle architecture abandonne la prédiction de texte pour construire des représentations internes qui simulent la réalité, un changement qui pourrait sembler relever de la science-fiction mais qui a déjà vu ses premiers produits commerciaux faire leurs preuves.
Axios détaille l’avancée en expliquant que ces systèmes traitent des données multimodales massives : vidéo, simulations 3D, capteurs, images et audio qui se combinent pour créer des modèles internes du comportement physique. Autrement dit, l’IA ne mémorise pas des modèles textuels comme ChatGPT, mais dévellope une intuition spatiale semblable à la nôtre.
Simulations qui comprennent la gravité
La clé réside dans le fait que ces modèles ne prédisent pas des mots, mais des événements physiques : ils peuvent simuler ce qui se passe lorsqu’un objet tombe, comment une balle rebondit ou comment un liquide se verse sans que personne ne leur ait spécifiquement programmé ces règles. Fei-Fei Li vient de présenter Marble, le premier produit commercial de son entreprise World Labs, prouvant que la technologie fonctionne déjà au-delà du laboratoire.
Le processus interne est assez élégant : tandis que les grands modèles de langage traitent l’information de manière séquentielle, les world models créent des cartes spatiales tridimensionnelles où chaque objet conserve des propriétés physiques cohérentes. Ils peuvent faire pivoter mentalement un cube, simuler des collisions ou prédire des trajectoires sans avoir vu ces situations exactes auparavant.
Yann LeCun, qui considère les LLM comme une impasse et monte maintenant sa propre startup de world models, explique la différence avec un exemple : « Imagine un cube flottant devant toi et fais-le pivoter de 90º. Aucun LLM ne peut vraiment faire cela ; un humain peut. » Cette capacité émerge car ils intègrent la cause et l’effet appris à partir de millions d’interactions physiques réelles.
Le principal défi technique reste d’obtenir des données sensorielles multimodales de qualité, bien plus complexe que de télécharger du texte sur internet. Une fille de quatre ans traite plus d’informations sensorielles réelles que tous les tokens de texte utilisés pour entraîner GPT-4, expliquant pourquoi des entreprises comme Meta investissent tant dans des simulations qui recréent des milliers d’interactions physiques pour entraîner des robots.
Un exemple de cette capacité en action est représenté par les « jumeaux numériques » : des copies virtuelles exactes d’espaces ou de processus réels qui se mettent à jour en permanence grâce à des capteurs, permettant de surveiller une usine depuis chez soi ou de prédire quand une machine va tomber en panne avant que cela ne se produise. Ils dépassent la simple surveillance pour permettre un contrôle prédictif : vous pouvez simuler ce qui se passerait si vous changiez la température d’un réacteur ou réorganisiez une chaîne de montage sans toucher à rien de physique.
Le développement international inclut des entreprises chinoises comme Tencent jusqu’à des universités des Émirats Arabes Unis, mais l’approche commune reste identique : enseigner le bon sens physique aux machines. Google, Meta et OpenAI étudient des modèles qui intègrent simulations et vidéos, tandis que Google DeepMind a recruté l’ancien CTO de Boston Dynamics pour accélérer le transfert de simulations vers des applications réelles.
Cette découverte positionne les world models comme des successeurs des LLM dans un horizon de trois à cinq ans selon les prévisions d’experts du secteur. La capacité de raisonner sur la physique ouvre des applications cruciales en robotique, dans les jeux vidéo et en analyse médicale, où la compréhension de l’espace et des interactions s’avère essentielle pour fonctionner correctement dans des environnements réels.
