Nouvelle méthode de DeepMind pour partitionner les LLM et contrer les injections de prompt

Nouvelle Méthode De Deepmind Pour Partitionner Les Llm Et Contrer

Google a développé une solution novatrice nommée CaMeL pour traiter la vulnérabilité des modèles de langage face aux injections de commandes malveillantes. Cette approche sépare les composants fiables des éléments non sûrs, tout en s’appuyant sur des principes de sécurité éprouvés. Les premiers tests montrent des résultats prometteurs face aux menaces réelles.

L’injection de requêtes est une faille inhérente aux grands modèles de langage, permettant à des attaquants de détourner le comportement de l’IA en intégrant des commandes malveillantes dans le texte d’entrée. La plupart des défenses reposent sur des barrières internes, mais les attaquants trouvent régulièrement des moyens de les contourner, rendant ainsi les solutions existantes temporaires au mieux. Google pense avoir découvert une solution durable.

Depuis que les chatbots sont devenus populaires en 2022, une faille de sécurité connue sous le nom d’injection de requêtes a perturbé les développeurs d’intelligence artificielle. Le problème est simple : les modèles de langage, comme ChatGPT, ne parviennent pas à distinguer les instructions utilisateur des commandes cachées intégrées dans le texte traité. Ces modèles supposent que tout texte entré (ou récupéré) est digne de confiance et le traite comme tel, ce qui permet à des acteurs malveillants d’insérer des instructions dangereuses dans leurs requêtes. Cette question revêt une importance accrue, les entreprises intégrant désormais ces IA dans nos clients de messagerie et d’autres logiciels contenant des informations sensibles.

DeepMind de Google a développé une approche radicalement différente appelée CaMeL (Capacités pour l’Apprentissage Automatique). Au lieu de demander à l’intelligence artificielle de s’auto-réguler – ce qui s’est révélé peu fiable – CaMeL considère les grands modèles de langage (LLM) comme des composants non fiables à l’intérieur d’un système sûr. Il crée des limites strictes entre les demandes des utilisateurs, le contenu non fiable comme les e-mails ou les pages web, et les actions que l’assistant IA est autorisé à exécuter.

CaMeL s’appuie sur des décennies de principes de sécurité logicielle éprouvés, incluant le contrôle d’accès, le suivi des flux de données et le principe du moindre privilège. Au lieu de se fier à l’IA pour intercepter chaque instruction malveillante, il limite ce que le système peut faire avec les informations qu’il traite.

Voici comment cela fonctionne. CaMeL utilise deux modèles de langage séparés : un modèle « privilégié » (P-LLM) qui planifie des actions comme l’envoi d’e-mails, et un modèle « en quarantaine » (Q-LLM) qui ne lit et analyse que le contenu non fiable. Le P-LLM n’a pas accès aux e-mails ou documents bruts – il reçoit uniquement des données structurées, comme « email = get_last_email() ». Pendant ce temps, le Q-LLM n’a ni accès aux outils ni à la mémoire, de sorte que même si un attaquant réussit à le tromper, il ne peut rien faire.

Nouvelle methode de DeepMind pour partitionner les LLM et contrer

Toutes les actions utilisent du code – en particulier une version simplifiée de Python – et s’exécutent dans un interpréteur sécurisé. Cet interpréteur trace l’origine de chaque donnée, vérifiant si elle provient de contenu non fiable. S’il détecte qu’une action nécessaire implique une variable potentiellement sensible, telle que l’envoi d’un message, il peut bloquer l’action ou demander une confirmation à l’utilisateur.

Simon Willison, le développeur qui a inventé le terme « injection de requêtes » en 2022, a salué CaMeL comme « la première atténuation crédible » qui ne repose pas sur plus d’intelligence artificielle mais s’inspire plutôt des leçons de l’ingénierie de la sécurité traditionnelle. Il a noté que la plupart des modèles actuels demeurent vulnérables car ils combinent les requêtes utilisateur et les entrées non fiables dans la même mémoire à court terme ou fenêtre contextuelle. Ce design traite tout texte de manière égale, même s’il contient des instructions malveillantes.

CaMeL n’est pas encore parfait. Il nécessite que les développeurs écrivent et gèrent des politiques de sécurité, et des confirmations fréquentes pourraient agacer les utilisateurs. Cependant, lors des premiers tests, il a bien performé face à des scénarios d’attaque réels. Il pourrait également aider à se défendre contre des menaces internes et des outils malveillants en bloquant l’accès non autorisé à des données ou commandes sensibles.

Si vous aimez lire des détails techniques non dévoilés, DeepMind a publié sa longue recherche sur le dépôt académique arXiv de Cornell.