La technologie Microsoft VASA peut créer des deepfakes réalistes en utilisant une seule photo et une seule piste audio

Microsoft VASA tech can create realistic deepfakes using a single photo and one audio track

De l’autre côté du miroir: Microsoft Research Asia a publié un livre blanc sur une application d’IA générative qu’il développe. Le programme s’appelle VASA-1 et peut créer des vidéos très réalistes à partir d’une seule image d’un visage et d’une bande sonore vocale. Ce qui est encore plus impressionnant, c’est que le logiciel peut générer la vidéo et échanger les visages en temps réel.

Le Visual Affective Skills Animator, ou VASA, est un cadre d’apprentissage automatique qui analyse une photo faciale, puis l’anime avec une voix, en synchronisant les mouvements des lèvres et de la bouche avec l’audio. Il simule également les expressions faciales, les mouvements de la tête et même les mouvements corporels invisibles.

Comme toute IA générative, elle n’est pas parfaite. Les machines ont encore des difficultés avec les détails fins comme les doigts ou, dans le cas de VASA, les dents. En prêtant une attention particulière aux dents de l’avatar, on peut voir qu’elles changent de taille et de forme, leur donnant une qualité semblable à celle d’un accordéon. C’est relativement subtil et semble fluctuer en fonction de la quantité de mouvement en cours dans l’animation.

Youtube video

Il y a aussi quelques manières qui ne semblent pas tout à fait correctes. Il est difficile de les mettre en mots. C’est plutôt comme si votre cerveau enregistrait quelque chose de légèrement erroné avec le haut-parleur. Cependant, cela n’est perceptible qu’après un test attentif. Pour des observateurs occasionnels, les visages peuvent passer pour des humains enregistrés parlant.

Les visages utilisés dans les démos des chercheurs sont également générés par l’IA à l’aide de StyleGAN2 ou DALL-E-3. Cependant, le système fonctionnera avec n’importe quelle image – réelle ou générée. Il peut même animer des visages peints ou dessinés. Le visage de Mona Lisa chantant l’interprétation d’Anne Hathaway de la chanson « Paparazzi » sur Conan O’Brien est hilarant.

Blague à part, il existe des craintes légitimes selon lesquelles de mauvais acteurs pourraient utiliser la technologie pour diffuser de la propagande ou tenter d’arnaquer les personnes en se faisant passer pour des membres de leur famille. Étant donné que de nombreux utilisateurs de médias sociaux publient des photos de membres de leur famille sur leurs comptes, il serait simple pour quelqu’un de récupérer une image et d’imiter ce membre de la famille. Ils pourraient même le combiner avec une technologie de clonage vocal pour le rendre plus convaincant.

La technologie Microsoft VASA peut creer des deepfakes realistes en

L’équipe de recherche de Microsoft reconnaît le potentiel d’abus mais ne fournit pas de réponse adéquate pour le combattre autre qu’une analyse vidéo minutieuse. Il pointe du doigt les artefacts mentionnés précédemment tout en ignorant les recherches en cours et l’amélioration continue du système. Le seul effort tangible de l’équipe pour prévenir les abus est de ne pas le rendre public.

« Nous n’avons pas l’intention de publier une démo en ligne, une API, un produit, des détails de mise en œuvre supplémentaires ou toute offre associée tant que nous ne sommes pas certains que la technologie sera utilisée de manière responsable et conformément aux réglementations en vigueur », ont déclaré les chercheurs.

Youtube video

La technologie a cependant des applications pratiques intrigantes et légitimes. La première consisterait à utiliser VASA pour créer des avatars vidéo réalistes qui s’afficheraient localement en temps réel, éliminant ainsi le besoin d’un flux vidéo consommateur de bande passante. Apple fait déjà quelque chose de similaire avec ses Spatial Personas disponibles sur Vision Pro.

Consultez les détails techniques dans le livre blanc publié sur le référentiel arXiv. Il existe également d’autres démos sur le site Web de Microsoft.

Détente, découvrez l’évolution du nombre de smartphones vendus par marque au fil du temps dans la vidéo ci-dessous :

Youtube video