Le modèle Gemini 3 Flash arrive sur l’app et devient le nouveau standard dès aujourd’hui

Gemini 3 Flash arrive dans l'application Gemini et sera le modèle par défaut désormais

Google a introduit Gemini 3 Flash comme moteur principal dans son application et son moteur de recherche, optimisant les performances tout en offrant un choix entre rapidité et précision. Avec une réduction significative des coûts pour les développeurs, cette mise à jour pourrait transformer les intégrations dans le domaine de l’intelligence artificielle.

Gemini 3 Flash est maintenant le moteur par défaut : Google abaisse les prix de l’API et introduit un mode de « réflexion » pour augmenter la vitesse

Gemini 3 Flash arrive dans l'application Gemini et sera le modèle par défaut désormais
Le déploiement est réalisé sur le serveur. La mise à jour introduit le ‘Context Caching’ pour les développeurs et quelques économies sur le million de tokens, avec un prix désormais de 50 cents

Google a déployé Gemini 3 Flash, remplaçant immédiatement la version 2.5 comme moteur par défaut dans son application et moteur de recherche. La société fait un pas en avant en plaçant ce modèle optimisé comme standard, préservant la complexité du raisonnement de la gamme haut de gamme tout en réduisant considérablement les délais d’attente et la consommation de ressources.

Selon TechCrunch, le déploiement est mondial et touche également l’API pour les développeurs. Google œuvre à résoudre les problèmes de latence lors des interactions quotidiennes : il n’est plus nécessaire de recourir au modèle Pro, qui est plus lent et coûteux, pour bénéficier de capacités multimodales adéquates ou d’analyses de code en temps réel.

Deux vitesses et mise en cache du contexte

Ce modèle Flash n’est pas totalement nouveau, mais une version simplifiée des nouveautés de Gemini 3 précédemment dévoilées. L’architecture a été allégée pour offrir deux modes d’utilisation : « Rapide », pour des réponses instantanées, et « Réflexion », où l’IA prend son temps pour traiter des chaînes de pensée (CoT). Ce changement technique est significatif ; désormais, l’utilisateur peut choisir entre rapidité ou précision logique dans une même conversation.

Si l’application reste inchangée, une mise à jour manuelle est nécessaire. Il existe des méthodes pour activer Gemini 3 et charger les nouveaux binaires, ce qui est recommandé car l’amélioration de la fenêtre de contexte est tangible. Flash permet le téléchargement de vidéos longues ou de dépôts entiers pour interroger ces derniers avec une agilité que la version 2.5 n’offrait pas. C’est la réponse technique aux plaintes concernant la lenteur des analyses multimodales.

En observant les benchmarks face à la concurrence, notamment les différences entre Gemini 3 et GPT-5.1, on constate que Google avait des difficultés dans la gamme intermédiaire. Flash comble cette lacune. Il propose des capacités d’agent — telles que l’édition d’images ou l’exécution de code — sans pénaliser les performances des modèles plus lourds. C’est un affront direct à OpenAI, qui fait toujours face à des problèmes de latence dans ses modèles de raisonnement.

Pour les utilisateurs de l’API, Google a abaissé les tarifs : 0,50 dollars pour un million de tokens d’entrée et 3 dollars pour la sortie. Le traitement audio est à 1 dollar. Ce qui est intéressant ici, c’est le Context Caching, qui peut réduire la facture jusqu’à 90 % en réutilisant des données. Cela rend le catalogue de Google plus organisé. NotebookLM Ultra reste destiné aux recherches lourdes, tandis que Flash est mis en avant pour les tâches quotidiennes.

Google considère que la véritable barrière d’entrée n’est plus l’intelligence, mais la vitesse et le coût. Si ce modèle atteint le taux de réussite attendu sans trop d’erreurs, il deviendra le standard pour de nombreuses intégrations tierces. Malgré les menaces d’une bulle de l’IA, il reste à voir si la Grande G est déterminée à rivaliser avec OpenAI.