Tout ce qu’il faut, c’est un audio de trois secondes pour copier votre voix, comment fonctionne le nouveau programme de Microsoft

Tout ce qu'il faut, c'est un audio de trois secondes pour copier votre voix, comment fonctionne le nouveau programme de Microsoft

VALL-E est capable de reproduire tout ce qu’il entend. La nouvelle IA produisant un son faux mais ultra-réaliste pourrait devenir un problème à l’avenir.

Tout le monde pourrait entendre une phrase anachronique d’Elvis Presley, comme : « suivez mon nouveau profil Instagram », ou improbable, par exemple Elon Musk affirmant que son compte est dans le rouge, et tout semblerait réel, même si ce n’est pas le cas. Après les textes écrits par une machine qui semble être humaine et les générateurs d’images qui créent des œuvres d’art, vient une intelligence artificielle capable de reproduire la voix de n’importe qui.

Il s’appelle VALL-E, il a été créé par Microsoft et il imite parfaitement le timbre, le ton et l’émotion de chaque discours. Et il le fait en écoutant seulement 3 secondes d’audio.

La nouvelle IA de Microsoft

VALL-E est un modèle d’apprentissage automatique de synthèse vocale défini par Microsoft comme un « modèle de langage avec codec neuronal » basé sur la technologie EnCodec de Meta. Contrairement à d’autres technologies de synthèse vocale, qui permettent d’obtenir la parole en manipulant des formes d’onde (par exemple celle intégrée dans macOS), VALL-E est capable de générer la voix de n’importe qui en un rien de temps sans la déformer.

En plus de conserver le timbre vocal et le ton émotionnel d’un locuteur, VALL-E parvient également à imiter l’environnement acoustique de l’échantillon audio. Ainsi, si la voix enregistrée provient d’un appel téléphonique, l’IA pourra reproduire des caractéristiques acoustiques, par exemple la voix métallique filtrée par les haut-parleurs d’un smartphone. Tout cela en écoutant seulement 3 secondes d’audio à imiter par l’IA.

Comment fonctionne VALL-E ?

L’IA a été formée en utilisant plus de 60 000 heures de discours en anglais et a écouté des milliers de voix de personnes, principalement des enregistrements de livres audio.

« Pour synthétiser la parole personnalisée, VALL-E génère les jetons acoustiques basés sur les données collectées dans l’enregistrement de 3 secondes, qui contient les informations sur l’orateur et le contenu. Enfin, les jetons acoustiques générés sont utilisés pour synthétiser l’onde finale de la parole avec le décodeur de codec neuronal correspondant », explique l’équipe Microsoft.

L’Université Cornell, qui a examiné le logiciel, a expliqué que « VALL-E surpasse de manière significative les meilleurs systèmes TTS à tir zéro actuellement sur le marché » et a confirmé que « la capacité à préserver le ton et l’expression émotionnelle de la voix d’origine est véridique ».

Risques probables

Les créateurs de VALL-E ont expliqué qu’il pouvait être utilisé pour des applications de synthèse vocale de qualité, modifiant ainsi le discours en cours d’édition sans qu’il soit nécessaire d’enregistrer des parties supplémentaires. Oui, mais pas seulement. Sans protections adéquates, VALL-E pourrait devenir un problème. Par exemple, cela ouvrirait la voie à un hameçonnage plus réaliste, ou cela faciliterait la diffusion de fausses nouvelles. Bref, tout le chaos qui tourne déjà autour des technologies deepfake serait alimenté par un son ultra-réaliste.

Un problème qui a déjà été pris en considération, il y a quelques mois, en octobre 2022, le Garant à la protection des données personnelles a ouvert une enquête contre la société de l’application Fakeyou, capable de reproduire des fichiers texte à l’aide de fausses voix, mais réaliste, de personnalités connues, dont des Italiens.

Déguiser des voix ou faire semblant d’être une autre personne serait extrêmement facile avec VALL-E. Les développeurs en sont conscients et ont en fait expliqué que pour atténuer les risques, ils conçoivent déjà des modèles de détection capables de reconnaître le faux son.

Microsoft parie sur l’IA

L’intérêt de Microsoft pour l’intelligence artificielle a des racines profondes. En effet, il est en pourparlers pour investir 10 milliards de dollars dans OpenAI, la société de San Francisco qui a lancé ChatGpt et Dall-E.

Comme l’a expliqué Semafor, l’accord porterait la valorisation de l’entreprise à 29 milliards de dollars. Selon un rapport cité par Reuters, les documents d’investissement ont déjà été envoyés aux prêteurs potentiels. L’accord devrait donner à Microsoft 75% des bénéfices d’OpenAI jusqu’à ce qu’il récupère son investissement initial. Une fois le seuil atteint, Microsoft détiendra une participation de 49 % dans OpenAI, tandis que d’autres investisseurs prendront 49 % supplémentaires et la société mère à but non lucratif d’OpenAI obtiendra 2 %.

Déjà en 2019, Microsoft avait investi 1 milliard de dollars dans OpenAI, pour lancer la version de son moteur de recherche Bing utilisant l’IA ChatGpt.