La division DeepMind de Google a présenté Veo 2, son modèle de génération vidéo de nouvelle génération, capable de créer des clips allant jusqu’à deux minutes en 4K. Bien que ce modèle soit encore en phase expérimentale, ses avancées promettent des améliorations significatives en matière de réalisme et de fluidité des vidéos.

La division DeepMind de Google a révélé, lundi, son modèle de génération vidéo Veo 2 de seconde génération, capable de créer des clips d’une durée allant jusqu’à deux minutes et à des résolutions atteignant la qualité 4K — soit six fois la durée et quatre fois la résolution des clips de 20 secondes en 1080p que Sora peut générer.
Ces spécifications représentent les limites théoriques de Veo 2. Cependant, le modèle n’est actuellement accessible que sur VideoFX, la plateforme expérimentale de génération vidéo de Google, où les clips sont limités à huit secondes et à une résolution de 720p. De plus, VideoFX est soumis à une liste d’attente, ce qui signifie que tout le monde ne peut pas se connecter pour essayer Veo 2, bien que la société ait annoncé qu’elle élargira l’accès dans les semaines à venir. Un porte-parole de Google a également précisé que Veo 2 sera disponible sur la plateforme Vertex AI une fois que l’entreprise aura réussi à étendre les capacités du modèle.
“Au cours des mois à venir, nous continuerons à itérer en fonction des retours des utilisateurs,” a déclaré Eli Collins à TechCrunch, “et [nous] chercherons à intégrer les capacités améliorées de Veo 2 dans des cas d’utilisation convaincants au sein de l’écosystème Google… Nous prévoyons de partager plus de mises à jour l’année prochaine.”
Aujourd’hui, nous annonçons Veo 2 : notre modèle de génération vidéo de pointe qui produit des clips réalistes et de haute qualité à partir de textes ou d’images. 🎥
Nous publions également une version améliorée de notre modèle de génération d’images à partir de textes, Imagen 3 – disponible pour utilisation dans ImageFX via… pic.twitter.com/h6ejHaMUM4
— Google DeepMind (@GoogleDeepMind) 16 décembre 2024
Veo 2 présente apparemment plusieurs avantages par rapport à ses prédécesseurs, notamment une meilleure compréhension de la physique (meilleure dynamique des fluides et effets d’illumination/ombrage) ainsi qu’une capacité à générer des clips vidéo “plus nets”, où les textures et images produites sont plus précises et moins sujettes au flou lors des mouvements. Le nouveau modèle propose également des contrôles de caméra améliorés, permettant à l’utilisateur de positionner l’objectif virtuel avec une plus grande précision qu’auparavant.
Comme le souligne TechCrunch, Veo 2 n’a pas encore perfectionné le processus de génération vidéo, bien qu’il semble halluciner beaucoup moins que ses concurrents tels que Sora, Kling, Movie Gen ou Gen 3 Alpha. “La cohérence et la constance sont des domaines à améliorer,” a déclaré Collins. “Veo peut adhérer de manière constante à un prompt pendant quelques minutes, mais [il ne peut pas] respecter des prompts complexes sur de longues durées. De même, la constance des personnages peut poser problème. Il y a également des améliorations à apporter à la génération de détails complexes et de mouvements rapides et complexes, tout en continuant à repousser les limites du réalisme.”
Google a également annoncé des améliorations à Imagen 3, permettant à ce modèle de génération d’images commerciales de produire des résultats “plus lumineux et mieux composés”. Le modèle, disponible sur ImageFX, offrira également des suggestions descriptives supplémentaires basées sur des mots-clés dans le prompt de l’utilisateur, avec chaque mot-clé générant un menu déroulant de termes associés.
