Google dévoile Gemini Omni, son outil de génération vidéo par IA
Le domaine de l’intelligence artificielle générative poursuit son évolution rapide. Google a présenté récemment Gemini Omni, un nouveau modèle dédié à la création vidéo. Cette technologie succède à des systèmes comme Veo et combine texte, images et son pour produire des séquences réalistes d’une durée maximale de dix secondes.
Le fonctionnement de cet outil repose principalement sur la qualité des instructions fournies par l’utilisateur, ou prompts. La précision de la description, incluant le style, les mouvements et les angles de caméra, détermine directement le résultat final. Gemini Omni se distingue en permettant des ajustements successifs par le dialogue, tout en préservant une cohérence stylistique tout au long du processus.
Un éditeur vidéo conversationnel
Contrairement aux modèles précédents qui nécessitaient de tout recréer pour modifier un détail, Gemini Omni fonctionne comme un éditeur conversationnel. L’utilisateur peut générer une séquence, puis demander des corrections dans une interaction suivante, comme changer un décor ou un vêtement. Le modèle conserve les éléments physiques de base de la scène originale et comprend des concepts comme la gravité pour un rendu naturel. Il génère également un audio synchronisé et permet l’utilisation d’un avatar numérique personnalisé.
Applications pratiques de la technologie
Les cas d’usage de cet outil couvrent plusieurs secteurs. Pour le marketing, il peut transformer une simple photo de produit en un clip dynamique, par exemple en animant une chaussure de sport dans un environnement urbain.
Dans le domaine du montage, il simplifie les effets spéciaux. Un utilisateur peut soumettre une vidéo et demander, via une instruction en langage naturel, de transformer un parc en une ville futuriste de type cyberpunk, avec un ajustement automatique de l’éclairage.
Pour l’éducation, il facilite la visualisation de concepts complexes. Un enseignant peut demander une animation précise d’un satellite en orbite autour de la Terre, le modèle appliquant alors les principes physiques appropriés.
Exemples d’instructions pour optimiser les résultats
La maîtrise du prompt est essentielle. Pour un usage marketing, on pourra demander : « Animez la photo de référence de la chaussure de course. Placez-la sur un coureur sprintant dans une rue citadine nocturne et pluvieuse. Utilisez un angle bas suivant le mouvement. »
Pour un effet visuel, l’instruction pourrait être : « Prenez ma vidéo en train de marcher dans un parc. Conservez mon mouvement et remplacez l’arrière-plan par une ville cyberpunk. Ajustez l’éclairage sur mon visage pour qu’il corresponde aux néons bleus et pourpres. »
Pour un contenu éducatif : « Générez une animation 3D d’un satellite météorologique en orbite autour de la Terre. Montrez son déplacement réaliste sur sa trajectoire et faites tourner lentement la caméra autour de lui. »
Une autre instruction type pour une présentation de produit : « Démarrez dans l’obscurité totale. Faites passer une lumière douce sur une montre au fini métallique sombre, en révélant les engrenages. Faites tourner la caméra autour du produit pour terminer sur un plan net du logo. »
Enfin, pour utiliser un avatar numérique : « Générez une vidéo avec mon avatar dans un studio professionnel. Il doit regarder la caméra, faire des gestes naturels et prononcer un message d’accueil avec une parfaite synchronisation labiale. »
