Google a lancé un nouveau benchmark pour évaluer les intelligences artificielles dans le développement d’applications Android, avec des résultats prometteurs. Le modèle Gemini 3.1 Pro s’est distingué comme le meilleur, atteignant un score de 72,4 %. Cette initiative vise à améliorer la productivité des développeurs.
La meilleure IA pour développer des applications Android
Selon la grande entreprise technologique, les benchmarks génériques ne mesurent pas efficacement les compétences sur Android. Écrire du code Python standard ne s’apparente pas à gérer le cycle de vie d’une tâche ou à appliquer une architecture propre dans une application mobile. Google estime que l’Android Benchmark servira de référence utile pour que les développeurs optimisent leur temps en utilisant des outils pertinents.
D’après les classements, les modèles de Google et d’Anthropic se démarquent pour le développement d’applications. Le Gemini 3.1 Pro Preview obtient un score de 72,4 %, reflet d’une moyenne basée sur 100 tests réussis en 10 exécutions. Le modèle de pointe de l’entreprise affiche un intervalle de confiance de 65 % à 79 %, une métrique clé pour évaluer la fiabilité des résultats.
Voici les modèles d’IA les mieux classés pour développer des applications sur le système d’exploitation mobile :
- Gemini 3.1 Pro Preview : 72,4 %
- Claude Opus 4.6 : 66,6 %
- GPT-5.2 Codex : 62,5 %
- Claude Opus 4.5 : 61,9 %
- Gemini 3 Pro Preview : 60,4 %
- Claude Sonnet 4.6 : 58,4 %
- Claude Sonnet 4.5 : 54,2 %
- Gemini 3 Flash Preview : 42 %
- Gemini 2.5 Flash : 16,1 %
Juste derrière Google, le Claude Opus 4.6 et le GPT-5.2 Codex affichent des scores de 66,6 % et 62,5 % respectivement. Viennent ensuite le Claude Opus 4.5 et le Gemini 3 Pro, tandis que le Claude Sonnet 4.6 ne parvient pas à se démarquer. De plus, l’intermédiaire d’Anthropic montre des performances cinq fois supérieures au Gemini 2.5 Flash, qui peine à atteindre 10 % de fiabilité.
Google explique le fonctionnement de l’Android Bench
Contrairement à d’autres tests, l’Android Bench se base sur 100 tâches sélectionnées à partir d’une base initiale de près de 39 000 pull requests sur GitHub. Google a dévoilé les dépôts ayant obtenu plus de 500 étoiles et les modifications réalisées au cours des trois dernières années, afin que les modèles soient testée sur des normes actuelles plutôt que sur du code obsolète.
❌ Generic code suggestions. ✅ Android coding expertise.
Les LLM doivent gérer le code quotidien, c’est pourquoi nous avons créé un benchmark basé sur des tâches courantes. En savoir plus sur Android Bench et comment nous améliorons l’assistance AI → https://t.co/Djhgr5WItU pic.twitter.com/mMjKubdrG5
— Android Developers (@AndroidDev) Mars 5, 2026
Selon le site Android Bench, les scores les plus élevés sont attribués aux modèles qui montrent une compétence dans quatre domaines clés. Il s’agit de l’interface utilisateur, de l’asynchronisme, de la persistance et de l’injection de dépendances.
71 % des tests sont réalisés en Kotlin, contre 25 % pour Java. Bien que la majorité des dépôts sur GitHub concernent les applications, le benchmark indique que 58 % des tâches relèvent du développement de bibliothèques. Les tâches varient de corrections de moins de 27 lignes à des modifications de plus de 400 lignes, couvrant ainsi l’ensemble du quotidien d’un développeur expérimenté.
Pour éviter qu’une IA soit validée par simple mémorisation du code, Google met en œuvre des mesures de sécurité et un contrôle manuel des étapes suivies par le modèle. Ceci assure que les 72,4 % de capacité du Gemini à résoudre des problèmes en temps réel sont authentiques.
