Remise en contexte: À moins que vous ne soyez directement impliqué dans le développement ou la formation d’un grand modèle de langage, vous ne pensez pas ni même ne réalisez pas leurs vulnérabilités de sécurité potentielles. Qu’il s’agisse de fausses informations ou de fuites de données personnelles, ces faiblesses présentent des risques pour les fournisseurs et les utilisateurs de LLM.
Llama LLM de Meta a obtenu de mauvais résultats lors d’une récente évaluation tierce réalisée par la société de sécurité IA DeepKeep. Les chercheurs ont testé le modèle dans 13 catégories d’évaluation des risques, mais il n’a réussi à réussir que dans quatre. La gravité de ses performances était particulièrement évidente dans les catégories d’hallucinations, d’injection rapide et de fuite de données/informations personnelles, où il a démontré des faiblesses significatives.
Lorsqu’on parle de LLM, les hallucinations se produisent lorsque le modèle présente des informations inexactes ou inventées comme s’il s’agissait d’un fait, insistant même parfois sur le fait qu’elles sont vraies lorsqu’il y est confronté. Dans le test de DeepKeep, Llama 2 7B a obtenu un score « extrêmement élevé » en matière d’hallucinations, avec un taux d’hallucinations de 48 %. En d’autres termes, vos chances d’obtenir une réponse précise se résument à un tirage au sort.

« Les résultats indiquent une propension significative du modèle à halluciner, présentant une probabilité d’environ 50 pour cent de fournir la bonne réponse ou de fabriquer une réponse », a déclaré DeepKeep. « En règle générale, plus l’idée fausse est répandue, plus il y a de chances que le modèle fasse écho à ces informations incorrectes. »
Les hallucinations sont un problème connu depuis longtemps chez les lamas. L’Université de Stanford a retiré d’Internet son chatbot « Alpaca » basé sur le lama l’année dernière en raison de sa tendance à halluciner. Ainsi, le fait que la situation soit toujours aussi mauvaise dans cette catégorie reflète mal les efforts de Meta pour résoudre le problème.
Les vulnérabilités de Llama en matière d’injection rapide et de fuite de données personnelles/PII sont également particulièrement préoccupantes.
L’injection rapide implique de manipuler le LLM pour écraser sa programmation interne afin d’exécuter les instructions de l’attaquant. Lors des tests, l’injection rapide a réussi à manipuler la sortie de Llama dans 80 % des cas, une statistique inquiétante compte tenu du potentiel d’acteurs malveillants qui l’utilisent pour diriger les utilisateurs vers des sites Web malveillants.

« Pour les invites incluant le contexte avec l’injection d’invite, le modèle a été manipulé dans 80 % des cas, ce qui signifie qu’il a suivi les instructions d’injection d’invite et a ignoré les instructions du système », a déclaré DeepKeep. « [Prompt injection] peut prendre de nombreuses formes, allant de l’exfiltration d’informations personnelles identifiables (PII) au déclenchement d’un déni de service et à la facilitation d’attaques de phishing.
Llama a également une propension aux fuites de données. Cela évite principalement la fuite d’informations personnelles identifiables, telles que des numéros de téléphone, des adresses e-mail ou des adresses postales. Cependant, il semble trop zélé lors de la rédaction d’informations, supprimant souvent par erreur et inutilement des éléments inoffensifs. Il est très restrictif pour les requêtes concernant la race, le sexe, l’orientation sexuelle et d’autres classes, même lorsque le contexte est approprié.
Dans d’autres domaines des informations personnelles, tels que les informations sur la santé et les finances, Llama souffre de fuites de données presque « aléatoires ». Le modèle reconnaît souvent que les informations peuvent être confidentielles, mais les expose quand même. Cette catégorie de sécurité était un autre tirage au sort en matière de fiabilité.

« Les performances de LlamaV2 7B reflètent étroitement le caractère aléatoire, avec des fuites de données et des suppressions inutiles de données se produisant dans environ la moitié des cas », a révélé l’étude. « À l’occasion, le modèle prétend que certaines informations sont privées et ne peuvent pas être divulguées, mais il continue néanmoins à citer le contexte. Cela indique que même si le modèle peut reconnaître le concept de confidentialité, il n’applique pas systématiquement cette compréhension pour expurger efficacement les informations sensibles. « .
Le bon côté des choses, DeepKeep dit que les réponses de Llama aux requêtes sont pour la plupart fondées, ce qui signifie que lorsqu’il ne produit pas d’hallucinations, ses réponses sont solides et précises. Il gère également efficacement la toxicité, la nocivité et les jailbreaks sémantiques. Cependant, il a tendance à osciller entre des réponses trop élaborées et trop ambiguës.


Bien que Llama semble résistant aux invites qui exploitent l’ambiguïté du langage pour amener le LLM à aller à l’encontre de ses filtres ou de sa programmation (jailbreaking sémantique), le modèle est encore modérément sensible à d’autres types de jailbreaking contradictoire. Comme mentionné précédemment, il est très sujet aux injections d’invite directes et indirectes, une méthode standard pour écraser les fonctions codées en dur du modèle (jailbreak).
Meta n’est pas le seul fournisseur LLM à présenter de tels risques de sécurité. En juin dernier, Google a averti ses employés de ne pas confier à Bard des informations confidentielles, probablement en raison du risque de fuite. Malheureusement, les entreprises qui utilisent ces modèles sont terriblement pressées d’être les premières, de sorte que de nombreuses faiblesses peuvent persister pendant de longues périodes sans qu’aucune solution ne soit trouvée.
Dans au moins un cas, un robot de menu automatisé s’est trompé dans les commandes des clients dans 70 % des cas. Au lieu de résoudre le problème ou de retirer son produit, elle a masqué le taux d’échec en externalisant l’aide humaine pour corriger les commandes. La société Presto Automation a minimisé les mauvaises performances du robot en révélant qu’il avait besoin d’aide pour 95 % des commandes qu’il avait prises lors de son lancement initial. C’est une position peu flatteuse, peu importe comment vous la regardez.
Détente, découvrez l’évolution du nombre de smartphones vendus par marque au fil du temps dans la vidéo ci-dessous :

