Google lance Lumiere, l’IA qui crée des vidéos réalistes à partir d’un texte : comment ça marche

Google lancia Lumiere, l’IA che crea video realistici partendo da un testo: come funziona

Nous devrons nous habituer car de nouvelles intelligences artificielles génératives seront lancées à un rythme soutenu dans les prochains mois. La dernière annoncée appartient à Google. Elle s’appelle Lumière, un hommage aux frères qui ont inventé la caméra et le projecteur de cinéma. Cette nouvelle IA, capable de réaliser des vidéos réalistes, a été créée avec l’aide du Weizmann Institute of Science et de l’Université de Tel Aviv. Lumière est polyvalente, on peut demander au logiciel d’animer un ours en peluche, de faire bouger en accéléré La Nuit étoilée de Van Gogh, ou de créer, à partir d’une chaîne de mots, deux ratons laveurs en train de lire un livre.

Immagine

L’IA de Google peut créer des vidéos de cinq secondes avec une résolution de 1024×1024. Certaines trahissent leur nature artificielle, d’autres sont réalistes, il suffit de regarder la tortue qui apparaît au début de la vidéo de présentation. Lumière utilise un « modèle de diffusion espace-temps pour la génération de vidéos réalistes », appelé Space-Time-U-Net, ou STUNet, qui permet la génération de toute la durée temporelle d’une vidéo en une seule passe. Les modèles vidéo traditionnels synthétisent quant à eux les images, le problème étant qu’au cours du montage, des scènes incohérentes ou des éléments hors contexte apparaissent souvent. Le modèle vidéo de Lumière a été entraîné sur un ensemble de données de 30 millions de vidéos, mais comme c’est souvent le cas, la source qui a nourri l’IA de Google n’est pas claire.

Comment fonctionne Lumière

L’intelligence artificielle générative nous a habitués au pouvoir des mots. Il suffit de taper une demande, d’appuyer sur entrée, et d’observer les résultats. En plus de la génération texte-vidéo, Lumière permettra également de créer du contenu image-vidéo, les utilisateurs pourront ainsi réaliser une vidéo en animant une image. Ce n’est pas tout. Le modèle prendra en charge différentes fonctionnalités, notamment l’inpainting, pour insérer ou modifier des objets spécifiques (par exemple, changer la couleur d’un vêtement), le cinémagraphe, pour ajouter du mouvement dans des zones spécifiques d’une scène, et la génération stylisée, qui permet de choisir le style de référence pour la création de la vidéo.

« Notre objectif principal avec ce travail est de permettre aux utilisateurs inexpérimentés de générer du contenu visuel de manière créative et flexible », peut-on lire dans le document publié par les chercheurs qui ont créé Lumière. Pour l’instant, aucun modèle n’est disponible pour être testé.

Les risques des nouvelles IA génératives

Dans le document de Google, l’équipe a également souligné : « Il y a un risque d’utilisation abusive de notre technologie pour la création de contenus falsifiés ou nuisibles, et nous pensons qu’il est essentiel de développer et d’appliquer des outils pour détecter les préjugés et les cas d’utilisation nuisibles afin d’assurer une utilisation sûre et équitable ».

En effet, au cours de la dernière année, l’intelligence artificielle générative a été utilisée pour créer de la désinformation et des deepfakes pornographiques, et il est de plus en plus difficile de distinguer la réalité. Dans une interview accordée au Daily Beast, l’experte en désinformation et chercheuse à Harvard, Joan Donovan, a expliqué que « malheureusement, ces outils de création d’images réalistes sont très utiles pour tromper le public. Nous assistons à une nouvelle forme de désinformation préventive, où les voix sont transformées en réalité grâce à la création de médias couvrant des événements qui ne se sont jamais produits ».