Le nouveau modèle d’IA de Google est capable de transformer des photos en vidéos

Le nouveau modèle d'IA de Google peut transformer des photos en vidéos

VLOGGER est capable de créer des vidéos réalistes de personnes parlant à travers une seule image

Le nouveau modèle d'IA de Google peut transformer des photos en vidéos
Il reste encore beaucoup de chemin à parcourir pour s’améliorer

Récemment, VLOGGER a été présenté, une IA qui vient changer le paradigme de l’animation de photos grâce à l’IA. Il promet une multitude de fonctionnalités grâce à sa simplicité, car il est capable d’animer une photo et de la faire parler et gesticuler comme si c’était la vraie personne. Cela, qui semble profondément futuriste, a également suscité certaines réserves quant à son application potentielle.

Une application avec des points positifs et des points négatifs

Une équipe de chercheurs de Google dirigée par Enric Corona a réalisé une avancée considérable dans le domaine de l’intelligence artificielle avec le développement de VLOGGER, un système d’IA capable de créer des vidéos réalistes de personnes parlant en utilisant seulement une photo comme modèle. Bien qu’il s’agisse d’une avancée importante et intéressante dans l’industrie de l’IA, il est également clair que les résultats se situent encore dans ce que l’on appelle la « vallée dérangeante ». Je vous encourage à regarder la vidéo pendant quelques secondes, vous remarquerez sûrement quelque chose d’étrange en vous, comme un signal de votre cerveau indiquant que quelque chose ne va pas avec ces images. C’est l’effet qui est ainsi désigné.

Le potentiel de VLOGGER est très large, car il peut être utilisé pour générer un doublage en temps réel avec la voix de l’acteur lui-même, mais il peut aussi être utilisé pour améliorer considérablement l’accessibilité des contenus pour les personnes handicapées. Cependant, on ne peut pas ignorer la dualité de son application, car il a également le pouvoir d’être utilisé pour créer des deepfakes ou propager la désinformation. C’est pourquoi l’on soulève à la fois le bien et le mal, car il existe déjà des escroqueries coûteuses avec des deepfakes.

VLOGGER travaille à partir d’une seule photographie et d’un extrait audio, ce qui lui permet de générer des vidéos où le sujet parle non seulement, mais manifeste également des expressions faciales et des gestes cohérents avec ce qui est dit dans la vidéo, ce qui montre la capacité d’inférence élevée de l’IA. Bien que les vidéos résultantes soient photoréalistes, elles présentent encore des imperfections qui permettent d’identifier leur origine artificielle. De plus, il est assez remarquable que cette avancée n’ait pas nécessité d’entraînement spécifique pour chaque personne. Grâce à son bloc d’apprentissage, VLOGGER a pu apprendre à s’adapter à chaque personne sans aucune adaptation préalable, ce qui montre une véritable avancée.

Cependant, la vidéo peut causer un certain malaise et les réseaux sociaux ont déjà exprimé leurs premières critiques à ce sujet. Il existe déjà des applications pour créer des deepfakes, mais cela porte cela à un nouveau niveau.

En résumé :

  • Une équipe de chercheurs de Google a développé un nouveau système d’IA appelé VLOGGER qui peut générer des vidéos réalistes de personnes parlant.
  • Il est encore très notablement dans la vallée dérangeante. On remarque très clairement que c’est une IA, mais la gamme d’utilités possibles est énorme.
  • Il peut également être utilisé à des fins malveillantes, en créant des deepfakes ou en générant de la désinformation.
  • Le modèle d’IA utilise une photo d’une personne et un extrait audio. Ensuite, il montre la personne avec ces expressions faciales et gestes correspondants à ce qui est dit dans l’audio.
  • Les vidéos sont photoréalistes, mais présentent quelques problèmes visibles dans l’image qui permettent de détecter qu’il s’agit encore d’une IA.
  • Il s’agit d’une IA qui ne nécessite pas d’entraînement spécifique pour chaque personne, elle génère l’image complète grâce à sa base de connaissances approfondie.
  • De plus, elle a appris grâce à plus de 2 200 heures de vidéos et 800 000 identités diverses dans ce qui est connu sous le nom de l’ensemble de données MENTOR.
  • Cela pourrait être utile pour le doublage automatique et pour d’autres questions relatives à l’accessibilité des contenus.
  • Pour l’instant, de nombreux utilisateurs ont signalé qu’ils se sentaient mal à l’aise.