Le générateur de voix IA Microsoft atteint la parité humaine mais est trop dangereux pour le public

Microsoft

Trop réel : Microsoft a développé une nouvelle itération de son modèle de langage de codec neuronal, Vall-E, qui surpasse les efforts précédents en termes de naturel, de robustesse de la parole et de similitude des locuteurs. Il est le premier du genre à atteindre la parité humaine dans une paire de tests de référence populaires, et il est apparemment si réaliste que Microsoft n’a pas l’intention d’en accorder l’accès au public.

S’appuyant sur les bases de Vall-E, le nouvel outil vocal IA intègre deux améliorations majeures qui améliorent considérablement les performances. La modélisation de code groupé permet à Microsoft de mieux organiser les codes de codec, ce qui se traduit par des longueurs de séquence plus courtes qui augmentent la vitesse d’inférence et aident à surmonter les défis associés à la modélisation de séquences longues.

L’échantillonnage sensible à la répétition, quant à lui, repense le processus d’échantillonnage du Core d’origine pour rechercher la répétition des jetons lors du décodage. Microsoft a déclaré que ce processus permet de stabiliser le décodage et d’éviter le problème de boucle infinie qui était présent dans le Vall-E d’origine.

Microsoft a testé Vall-E 2 en utilisant les ensembles de données LibriSpeech et VCTK, et il a réussi les deux tests avec brio. Lorsque Redmond affirme que l’outil d’IA atteint la parité humaine, cela signifie que Vall-E 2 a obtenu de meilleurs résultats que les échantillons de vérité fondamentale en termes de robustesse, de similarité et de naturel. En d’autres termes, l’outil peut produire un discours naturel qui est pratiquement identique à celui du locuteur d’origine.

Le generateur de parole IA de Microsoft atteint la parite

Microsoft a partagé des dizaines d’échantillons de Vall-E 2, que vous pouvez retrouver sur la page de résumé du projet. En effet, les échantillons de Vall-E 2 sont incroyablement réalistes et impossibles à distinguer de ceux d’un locuteur humain. L’outil d’IA maîtrise même des subtilités comme mettre l’accent sur le mot correct dans une phrase, comme le font inconsciemment les personnes lorsqu’ils parlent.

Microsoft a déclaré que Vall-E 2 était un projet purement de recherche, ajoutant qu’il n’avait pas l’intention d’intégrer la technologie dans un produit grand public ou de diffuser l’outil au grand public. Redmond a également noté qu’il comportait un risque potentiel d’utilisation abusive, comme l’usurpation d’identité d’une personne spécifique ou l’usurpation d’identité vocale.

Cela dit, l’entreprise estime qu’elle pourrait avoir des applications dans l’éducation, la traduction, l’accessibilité, le journalisme, le contenu auto-écrit et les chatbots, entre autres.

Détente, découvrez l’évolution du nombre de smartphones vendus par marque au fil du temps dans la vidéo ci-dessous :

Youtube video