Anthropic dévoile Claude Sonnet 4.6 : performances équivalentes à Opus et coûts réduits

Anthropic dévoile le modèle Claude Sonnet 4.6 avec une capacité de 1 million de tokens, proposant un rapport coût-efficacité intéressant. Toutefois, les affirmations sur ses performances manquent de benchmarks standards pour confirmer ces chiffres, soulevant des questions sur la solidité de cette offre.

Anthropic lance Sonnet 4.6 avec un contexte de 1M de tokens et des prix inférieurs à ceux d’Opus, mais sans benchmarks standards pour soutenir ses chiffres

Anthropic lance Claude Sonnet 4.6: performance au niveau d'Opus et coût opérationnel réduit — Le modèle promet d’égaler Opus 4.6 en compréhension de documents et Opus 4.5 en codage de long terme, selon des tests internes de l’entreprise.

Anthropic a présenté Claude Sonnet 4.6, un modèle de langage avec raisonnement hybride conçu pour des agents, la programmation et l’automatisation à grande échelle. L’entreprise le positionne comme une option pour ceux qui recherchent un équilibre entre capacité et coût, avec une fenêtre de contexte de 1 million de tokens — actuellement en version bêta et uniquement accessible via l’API — jusqu’alors réservée à sa gamme haut de gamme.

Selon les précisions d’Anthropic sur la page du modèle, les chiffres de lancement incluent des améliorations de plus de 10 points en détection de bugs par rapport à Sonnet 4.5, une précision accrue de 38% et une efficacité de 70% en tokens lors d’une évaluation interne de systèmes de fichiers — sans préciser les conditions ni les comparaisons externes — ainsi qu’une équivalence avec Opus 4.6 dans OfficeQA, un benchmark mesurant la compréhension des documents, l’extraction de données et le raisonnement.

Performance haut de gamme, prix moyen : cette promesse est-elle fiable ?

Début février, Anthropic a dévoilé son modèle le plus puissant de la gamme 4.6, avec des fenêtres de contexte étendues et un raisonnement avancé. Sonnet 4.6 arrive maintenant dans ce même domaine avec un tarif : 3 dollars par million de tokens d’entrée et 15 pour un million de sortie, chiffres qui descendent jusqu’à 90% avec cache de prompts et 50% supplémentaires avec le traitement par lots.

Ce modèle se distingue au sein de la gamme en combinant le mode standard et le raisonnement étendu dans un seul service, sans nécessité de changer de modèle en fonction de la tâche. Via l’API, il est possible d’ajuster l’effort de raisonnement pour prioriser la vitesse ou la précision selon le projet, impactant directement le coût par requête.

Les témoignages publiés par Anthropic — tous positifs et sélectionnés par l’entreprise elle-même — soulignent des améliorations concrètes : aucun lien halluciné lors des tests d’automatisation de navigateur contre un lien sur trois auparavant, un meilleur code iOS dans les tests de Rakuten AI, et des équipes ayant déjà migré « la majorité du trafic » depuis Sonnet 4.5.

Ce lancement intervient à un moment délicat. Il y a à peine une semaine, le responsable de la sécurité d’Anthropic a démissionné, accusant l’entreprise d’ignorer ses propres protocoles internes. Les chiffres positifs de Sonnet 4.6 ne gomment pas ce contexte : la page du modèle renvoie à une « carte de modèle » de sécurité distincte, sans détailler les atténuations, limites ni risques connus. Quelle sera la vitesse d’accélération dans les lancements avant que l’évaluation ne soit dépassée ?

Sonnet 4.6 est d’ores et déjà disponible sur Claude.ai ainsi que sur Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry, ce qui facilite son intégration dans des infrastructures existantes sans changer de fournisseur. Pour ceux qui accèdent via l’API, l’identifiant est claude-sonnet-4-6. Si les chiffres internes d’Anthropic tiennent dans un environnement réel, la relation prix-performance constitue l’argument le plus solide de cette sortie.

Anthropic dévoile Claude Sonnet 4.6 : performances équivalentes à Opus et coûts réduits

Anthropic lance Sonnet 4.6 avec un contexte de 1M de tokens et des prix inférieurs à ceux d’Opus, mais sans benchmarks standards pour soutenir ses chiffres

Performance haut de gamme, prix moyen : cette promesse est-elle fiable ?

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Mole l’outil gratuit pour nettoyer optimiser et surveiller votre Mac

Photoshop, Lightroom et sept autres applications pour retoucher vos photos comme un pro

China réussit à récupérer sa fusée ! La suprématie spatiale de Elon Musk menacée

Design et caractéristiques du Redmi Note 17 dévoilés avant son lancement

Les États-Unis autorisent un satellite géant pour réfléchir les rayons du soleil vers la Terre

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?