L’injection de prompt pour les robots IA n’est plus un simple problème de surface. Des chercheurs montrent qu’un robot peut être détourné de sa tâche par du texte situé dans le monde physique, un type de message qu’un humain pourrait croiser sans y prêter attention.
L’attaque ne nécessite pas de pénétrer le logiciel du robot ni de tromper les capteurs. Elle traite l’environnement comme une zone d’entrée, positionnant un panneau, une affiche ou une étiquette trompeuse là où une caméra peut le lire.
Lors de tests en simulation, les chercheurs rapportent des taux de réussite d’attaque de 81,8 % dans un scénario de conduite autonome et de 68,1 % dans une tâche d’atterrissage d’urgence d’un drone. Dans des essais physiques avec une petite voiture robotisée, des prompts imprimés ont remplacé la navigation avec un succès d’au moins 87 % dans diverses conditions d’éclairage et de vision.
Quand un panneau devient un ordre
La méthode, nommée CHAI, cible la couche de commande, l’instruction intermédiaire qu’un modèle de langage visuel produit avant qu’un contrôleur ne la transforme en mouvement. Si cette étape de planification est orientée vers la mauvaise instruction, le reste de la chaîne d’autonomie peut l’exécuter fidèlement. Aucun malware n’est requis.
Le modèle de menace est intentionnellement basique. L’attaquant est considéré comme un outsider, n’ayant pas accès aux systèmes embarqués, il doit simplement être capable de placer du texte dans le champ de vision de la caméra.
Conçu pour se déplacer
CHAI n’optimise pas seulement le contenu du prompt. Il ajuste également l’apparence du texte, y compris des choix tels que la couleur, la taille et le placement, car la lisibilité pour le modèle est une partie importante de ce qui influence le résultat.
Le document indique également que l’approche se généralise au-delà d’une scène unique. Il décrit des prompts « universels » qui continuent de fonctionner sur des images non vues, avec des résultats atteignant en moyenne au moins 50 % de succès sur les tâches et modèles, dépassant 70 % dans une configuration basée sur GPT. Cela fonctionne même à travers les langues, incluant le chinois, l’espagnol et des prompts en langue mixte, ce qui peut rendre un message planté plus difficile à détecter pour des humains à proximité.
La liste de contrôle de sécurité évolue
En matière de défense, les chercheurs évoquent trois axes. Le premier est le filtrage et la détection, visant à identifier le texte suspect dans les images ou dans la sortie intermédiaire du modèle. Un autre axe concerne le travail d’alignement, rendant les modèles moins enclins à traiter l’écriture environnementale comme une instruction exécutable. Le troisième se concentre sur la recherche de robustesse à long terme visant des garanties plus solides.
Une étape pratique suivante consiste à traiter le texte perçu comme une entrée non fiable par défaut, puis à exiger qu’il passe des vérifications de mission et de sécurité avant d’influencer la planification des mouvements. Si votre robot lit les panneaux, testez ce qu’il se passe lorsque les panneaux sont mensongers. Ce travail est prévu pour SaTML 2026, ce qui devrait mettre ces défenses sous un éclairage plus vif.
