XBOW teste l'outil Mythos Preview d'Anthropic pour la sécurité offensive

Il y a environ trois mois, l’entreprise Anthropic nous a sollicités pour évaluer les capacités d’un nouveau modèle d’intelligence artificielle. Ce modèle, que nous avons examiné avec nos méthodes de sécurité habituelles, s’appelle Mythos Preview. Nous avons utilisé des benchmarks, des workflows interactifs et différentes intégrations.

Les résultats montrent que ce modèle représente une avancée importante. Il est nettement supérieur aux précédents modèles pour identifier des candidats de vulnérabilité, surtout lorsque le code source est disponible. Il communique avec une précision technique inhabituelle, raisonne bien sur le code et présente des aptitudes solides dans des domaines complexes comme l’analyse de code natif et le reverse engineering.

En résumé, Mythos Preview est un instrument puissant pour générer des pistes de vulnérabilité solides et des analyses techniquement précises. Il excelle dans l’analyse de code source avec une perspective de sécurité. Cependant, il ne fonctionne pas seul : un modèle est un cerveau sans corps. Les audits de code source sont principalement une activité intellectuelle, mais les tests de pénétration sur des sites en direct, comme ceux que réalise XBOW, exigent un corps dont les compétences et le contrôle doivent correspondre à la puissance du cerveau.

Méthodologie de test

Nous avons constitué une équipe de dix experts issus de différentes divisions de la société. Cette équipe a examiné le modèle selon plusieurs angles. Nous avons testé tous les modèles avec le même système de benchmarking interne que nous utilisons pour analyser Opus 4.7 et GPT 5.5. Dans ce système, nous prenons des applications open source où des vulnérabilités ont été découvertes précédemment, nous figons la version vulnérable, puis nous lançons nos agents contre elles.

Cette fois, nous avons aussi élargi notre testing pour analyser d’autres aspects :

Le jugement du modèle concernant la modélisation des menaces, la validation des vulnérabilités et la sécurité.
La capacité du modèle à lire le code source plutôt qu’à interagir avec des systèmes en direct.
Sa capacité à trouver des exploits que nous ne recherchons pas encore dans nos assessments standards, par exemple les vulnérabilités des applications natives.

Une note sur la terminologie : Quand les gens parlent de « Mythos », ils désignent parfois le modèle brut. Dans cette évaluation, nous avons exploré Mythos Preview à l’intérieur de Claude Code et comme un modèle brut, via son API comme moteur pour les agents de XBOW. Nous séparons ces cas parce que l’orchestration, les outils, le prompting et l’accès aux sites en direct affectent les résultats.

Résultats

Les testeurs qui ont essayé Mythos Preview en utilisation interactive ont été impressionnés. Un d’entre eux a déclaré : « C’est beaucoup plus proche de ‘va juste trouver quelque chose’ que tout ce que j’ai vu jusqu’ici ». Nous lui avons donné notre propre code source, et il a trouvé des faiblesses. Rien de véritablement grave, heureusement, mais il y avait plusieurs éléments que nous avons voulu corriger.

Nous l’avons testé sur des logiciels open source, et à la fin de la première semaine, nous avons découvert plusieurs nouvelles vulnérabilités que nous devions divulguer.

Les testeurs qui ont essayé Mythos Preview sur les benchmarks ont aussi été impressionnés, mais leur admiration était d’une nature différente : impressionnés par les données. Les résultats ont aussi mis en lumière la différence entre les domaines où le modèle était extrêmement puissant et ceux où il présentait seulement une avancée modeste.

Performances de Mythos Preview sur les benchmarks

Nos principales conclusions après l’analyse de Mythos Preview sont :

Il est extrêmement puissant pour les audits de code source.
Il est bon, mais moins puissant, pour valider les exploits.
Son jugement est mitigé. Il peut être trop littéral et conservateur, et il tend aussi à exagérer la pertinence pratique de ses découvertes.
Il est fort dans la découverte de vulnérabilités de code natif et le reverse engineering.

Découverte de vulnérabilités de niveau supérieur

Mythos Preview représente un pas significatif en avant sur tous les modèles existants, quel que soit le fournisseur, sur le benchmark d’exploits web de XBOW.

Ce benchmark est conçu pour tester si un modèle peut aider XBOW à trouver des vulnérabilités validées et exploitables dans des environnements de site web en direct. Un cas est compté comme validé seulement lorsque le système trouve un moyen validé d’exploiter la vulnérabilité après une série de 80 « actions ». Une action peut être une commande shell ou un script Python qui utilise des commandes standard ou la suite d’outils d’attaque de XBOW.

Comparé au dernier modèle disponible à ce moment (Opus 4.6), il y a une forte amélioration :

Le nombre de faux négatifs a été réduit par 42%.
Dans une variation où nous avons donné aux deux modèles le code source du site, il a été réduit par 55%.

Ce fut la première instance d’un thème qui a refait surface plusieurs fois : Mythos Preview est impressionnant pour écrire du code, mais encore plus impressionnant pour le lire.

Voici les taux de réussite de Mythos Preview, Opus 4.6 et GPT 5.5 en fonction du nombre autorisé d’actions. Mythos Preview trouve les vulnérabilités en beaucoup moins d’itérations que Opus 4.6, alors que la différence avec GPT 5.5 est moins prononcée.

La situation devient plus claire quand on ajoute deux considérations :

Les modèles peuvent choisir plusieurs petits pas ou quelques grands pas. Au lieu de donner un budget d’actions, il faut considérer un budget de tokens de sortie.
Au lieu du taux de réussite moyen, il est souvent plus instructif de regarder les probabilités de découverte, c’est-à-dire le ratio sur lequel on parierait que le modèle découvre la vulnérabilité.

Selon ces considérations, l’image devient beaucoup plus claire : Token par token, Mythos Preview cible la vulnérabilité avec une précision absolument inégalée.

La validation sur site en direct est la partie difficile

Mythos Preview est excellent pour raisonner sur le code source, mais notre évaluation a confirmé une réalité pratique : beaucoup de problèmes exploitables ne apparaissent pas comme des défauts évidents dans le code source de l’application. Ils émergent de la configuration, des dépendances, des choix de déployement ou de la manière dont des composants autrement sûrs sont combinés.

Une dépendance seule peut être sûre. Le code source seul peut être sûr. Mais le code source utilise la dépendance dans une manière non sûre et crée une vulnérabilité. Gary McCraw a déclaré que vous ne trouverez pas la majorité des défauts en « fixant le code » seul.

Ceci est particulièrement intéressant pour nous. XBOW effectue des tests de pénétration, où notre objectif est un site en direct. Mythos Preview, utilisé par exemple dans Project Glasswing, excelle dans l’audit de code source.

Interagir avec le site en direct peut être très puissant, mais cela introduit une dimension nouvelle et très délicate. Mythos Preview change-t-il la donne ici ?

Pour ces benchmarks, peut-on trouver un exploit sans accès au site en direct ?

Il apparaît que même pour ces benchmarks, où la vulnérabilité est purement dans le code, le retrait de l’accès au site en direct nuit à la performance plus que le retrait de l’accès au code source. L’accès au site en direct compte souvent plus que l’accès au code source. C’est la proposition de valeur de XBOW : elle donne aux modèles frontaliers une manière sûre et structurée d’interagir avec le comportement réel de l’application et prouve que les découvertes sont réellement exploitables.

Les résultats de XBOW alimentée par Mythos Preview sont montrés ci-dessous.

Nous avons maintenant une réponse solide à la question « Un modèle peut-il trouver quelque chose intéressant dans le code ? » De plus en plus, la réponse sera positive, même si « quelque chose » ne sera pas la même chose que « tout ».

Mais alors, la question qui persiste est : « Quelles découvertes sont exploitables, reproductibles, sûres à tester et méritent d’être corrigées ? »

La réponse réside dans la combinaison de l’analyse puissante du code source de Mythos Preview avec une capacité comme celle de XBOW pour analyser un site en direct de manière sûre, orchestrée et validée.

Il est notable que même si Mythos Preview souffre beaucoup d’être privé d’accès au site en direct, les autres modèles souffrent encore plus. Une autre confirmation que la plus grande force de Mythos est la lecture du code source.

Les meilleurs résultats sont toujours obtenus avec la combinaison de l’accès au site en direct et au code source.

Ceci permet le pattern de détection idéal quand XBOW orchestre Mythos Preview : analyser le code source pour trouver une piste, explorer le site en direct pour comprendre comment la faiblesse se manifeste dans le déployement, puis créer un exploit.

Autres découvertes

Nous avons aussi exploré le modèle en termes de jugement, de reverse engineering, d’évaluation des applications natives et de perception visuelle.

Les résultats du jugement étaient mitigés

Les résultats de jugement de Mythos Preview étaient plus mitigés que ses résultats de découverte. Sur la sécurité des commandes, la modélisation des menaces et le triage des traces, il était souvent prudent et précis, mais aussi littéral et conservateur. Il a mieux rejeté les faux positifs que plusieurs prédecesseurs, mais parfois il a perdu des positifs quand l’évidence ne satisfaisait pas formellement ses critères ou quand la règle voulue était plus large que la règle écrite.

Ceci rend Mythos Preview précieux, mais pas autonome : il nécessite des prompts précis, des modèles de menace explicites et une infrastructure de validation pour transformer un raisonnement solide en résultats de sécurité fiables.

Un élément qui nous a un peu surpris ici était la performance de Mythos Preview sur notre benchmark de sécurité des commandes, où nous demandons aux modèles de considérer si un script donné est sûr à exécuter sans impact sur le site cible. Nous avons étiqueté un grand ensemble de cas proches de la limite de décision, et Haiku 4.5 a livré 90,1% de précision.

Nous avons aussi optimisé les prompts pour Haiku 4.5, donc la meilleure comparaison est Opus 4.6, qui avait une précision de 81,2%… mais Mythos Preview avait seulement 77,8%.

Quand nous avons approfondi et regardé son raisonnement, il avait souvent un argument. Il y avait des cas qui n’étaient techniquement pas contre la lettre des règles, mais ils étaient contre l’esprit. Opus 4.6 a priorisé l’esprit, mais Mythos Preview a priorisé la lettre.

Le modèle est fort en code natif et reverse engineering

En dehors des applications web, le modèle a montré une force substantielle dans la découverte de vulnérabilités de code natif et le reverse engineering.

Dans le testing lié à Chromium, il a trouvé plus de bugs réels avec moins de faux positifs que les baselines précédentes. Dans les travaux sur le sandbox V8, il a identifié des positifs dans un modèle de menace subtil où les approches précédentes avaient produit beaucoup de découvertes mais aucun positif réel. Il a aussi prouvé sa capacité de trier ses propres résultats et les découvertes des modèles concurrents.

Les résultats du reverse engineering étaient parmi les plus frappants. Le modèle a raisonné sur des contextes inhabituels de firmware et de systèmes embarqués, incluant des architectures et des combinaisons de systèmes d’exploitation qui exigent plus qu’une simple correspondance de patterns.

L’interaction avec le navigateur et la perception visuelle sont suffisamment solides pour les workflows pratiques

Les workflows de XBOW exigent souvent que les modèles interagissent avec des sites web en direct via une interface de navigateur. Dans ce contexte, la perception visuelle est importante : le modèle doit identifier le bon élément de l’interface et cliquer au bon endroit.

Le modèle évalué a très bien performé sur le QA de perception visuelle de XBOW, correspondant à Sonnet 4.6 et surpassant dramatiquement Opus 4.6. Il n’était pas parfaitement précis aux pixels quand on demandait des coordonnées exactes, mais il était efficace dans la sélection des actions correctes dans le navigateur.

Nous devons noter que Opus 4.7 a aussi brillé sur ce benchmark. L’histoire réelle ici n’est peut-être pas « Mythos Preview est bon », mais plutôt que c’est un domaine spécifique où les modèles d’Anthropic récents avaient commencé à se détériorer. Maintenant Anthropic a rattrapé cette détérioration et l’a inversée.

Puissance à un prix

Mythos Preview n’est pas seulement un nouveau modèle : il est un vrai titan.

Mais les titans sont grands, et grands signifie cher. Combien d’argent êtes-vous prêt à dépenser pour combien d’assurance ? Pouvez-vous dépenser cet argent autrement pour obtenir de meilleurs résultats ?

Au moment de la publication, Mythos Preview est encore inaccessible via des API publiques, mais Anthropic a mentionné qu’il serait 5 fois plus cher qu’un modèle Opus, déjà une option plus coûteuse, token pour token. La question qui se pose est :

Peut-on donner à un agent alimenté par un autre modèle plus de temps, et encore obtenir plus de précision pour moins de coût ?

En réalité : oui. Si nous normalisons par le coût estimé de fonctionnement, l’image est plutôt claire : Mythos Preview n’est pas terriblement inefficace, au moins si vous désirez une haute précision, mais il n’est pas le meilleur de sa classe sur nos benchmarks.

Cette découverte correspond à des comparaisons similaires, par exemple l’analyse de Point Estimate sur le benchmarking de l’Institut de Sécurité de l’IA de Mythos Preview versus GPT 5.5 : Mythos Preview est puissant, mais le vrai choix est de payer pour un agent qui utilise Mythos Preview pendant un temps, ou de utiliser GPT 5.5 autant que nécessaire. La meilleure option dépend du cas d’usage ; souvent, c’est la seconde.

L’évaluation de XBOW suggère que les modèles frontaliers ont réalisé un pas majeur en avant dans la découverte de vulnérabilités. Mythos Preview est fort pour trouver des candidats de vulnérabilité, surtout depuis le code source, et montre une capacité impressionnante sur les tâches web, de code natif et de reverse engineering.

Mais il doit être placé dans le bon cadre et équipé des bons outils pour atteindre son potentiel complet. Et même alors, il devrait être seulement une des flèches dans votre arsenal. Selon la tâche, il peut être plus sensé de laisser un autre modèle essayer plusieurs fois que de laisser Mythos Preview essayer une fois.

Ces considérations, après tout, sont une des raisons pour lesquelles XBOW maintient un groupe de modèles plutôt que se restreindre à un seul.

XBOW teste l’outil Mythos Preview d’Anthropic pour la sécurité offensive

Méthodologie de test

Résultats

Performances de Mythos Preview sur les benchmarks

Découverte de vulnérabilités de niveau supérieur

La validation sur site en direct est la partie difficile

Autres découvertes

Les résultats du jugement étaient mitigés

Le modèle est fort en code natif et reverse engineering

L’interaction avec le navigateur et la perception visuelle sont suffisamment solides pour les workflows pratiques

Puissance à un prix

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Comment faire de n’importe quel fichier MP3 la sonnerie de votre iPhone

Première mondiale : des robots humanoïdes opèrent avec succès des animaux vivants

245 000 ans plus tard, la particule « Oh-My-God » défie toujours la science

EA Sports FC 27 : Tout sur les précommandes, le gameplay, la configuration système et plus encore

Ce n’est pas la faute de votre chargeur : voici pourquoi votre téléphone chauffe après la dernière mise à jour

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?