Le générateur de voix IA Microsoft atteint la parité humaine mais est trop dangereux pour le public

Trop réel : Microsoft a développé une nouvelle itération de son modèle de langage de codec neuronal, Vall-E, qui surpasse les efforts précédents en termes de naturel, de robustesse de la parole et de similitude des locuteurs. Il est le premier du genre à atteindre la parité humaine dans une paire de tests de référence populaires, et il est apparemment si réaliste que Microsoft n’a pas l’intention d’en accorder l’accès au public.

S’appuyant sur les bases de Vall-E, le nouvel outil vocal IA intègre deux améliorations majeures qui améliorent considérablement les performances. La modélisation de code groupé permet à Microsoft de mieux organiser les codes de codec, ce qui se traduit par des longueurs de séquence plus courtes qui augmentent la vitesse d’inférence et aident à surmonter les défis associés à la modélisation de séquences longues.

L’échantillonnage sensible à la répétition, quant à lui, repense le processus d’échantillonnage du Core d’origine pour rechercher la répétition des jetons lors du décodage. Microsoft a déclaré que ce processus permet de stabiliser le décodage et d’éviter le problème de boucle infinie qui était présent dans le Vall-E d’origine.

Microsoft a testé Vall-E 2 en utilisant les ensembles de données LibriSpeech et VCTK, et il a réussi les deux tests avec brio. Lorsque Redmond affirme que l’outil d’IA atteint la parité humaine, cela signifie que Vall-E 2 a obtenu de meilleurs résultats que les échantillons de vérité fondamentale en termes de robustesse, de similarité et de naturel. En d’autres termes, l’outil peut produire un discours naturel qui est pratiquement identique à celui du locuteur d’origine.

Microsoft a partagé des dizaines d’échantillons de Vall-E 2, que vous pouvez retrouver sur la page de résumé du projet. En effet, les échantillons de Vall-E 2 sont incroyablement réalistes et impossibles à distinguer de ceux d’un locuteur humain. L’outil d’IA maîtrise même des subtilités comme mettre l’accent sur le mot correct dans une phrase, comme le font inconsciemment les personnes lorsqu’ils parlent.

Microsoft a déclaré que Vall-E 2 était un projet purement de recherche, ajoutant qu’il n’avait pas l’intention d’intégrer la technologie dans un produit grand public ou de diffuser l’outil au grand public. Redmond a également noté qu’il comportait un risque potentiel d’utilisation abusive, comme l’usurpation d’identité d’une personne spécifique ou l’usurpation d’identité vocale.

Cela dit, l’entreprise estime qu’elle pourrait avoir des applications dans l’éducation, la traduction, l’accessibilité, le journalisme, le contenu auto-écrit et les chatbots, entre autres.

Détente, découvrez l’évolution du nombre de smartphones vendus par marque au fil du temps dans la vidéo ci-dessous :

Le générateur de voix IA Microsoft atteint la parité humaine mais est trop dangereux pour le public

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Qu’est-ce que l’itinérance des données sur mobile et quand faut-il l’activer

Des rétines humaines « ressuscitées » ont réagi à la lumière dix heures après la mort

Vous avez un iPhone 17 les 3 meilleures coques chargeur et protection dont vous avez besoin

Tu n’es pas fou, il y a une raison pour laquelle la batterie de ton téléphone tient moins longtemps en été

Tout ce que vous pouvez faire pour résoudre les problèmes de l’application Cita Sanitaria avant de vous décourager

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?