Spotify clonera les voix des présentateurs de podcasts en utilisant l’IA

Spotify clonará las voces de los presentadores de podcasts usando IA

Spotify est sur le point de lancer un nouvel outil de synthèse basé sur l’IA qui permettra aux utilisateurs d’écouter leurs podcasts préférés en anglais dans une autre langue.

Spotify clonará las voces de los presentadores de podcasts usando IA
Spotify prépare une révolution pour ses podcasts.

Parler d’IA, c’est ouvrir la boîte de Pandore. Bien que l’intelligence artificielle puisse être très bénéfique pour l’humanité dans son ensemble, il est vrai que ses ramifications possibles soulèvent plus de questions que de réponses. En commençant par les emplois qui seront perdus, ou en continuant avec des experts inquiets qui demandent l’arrêt des expériences sur l’IA. Même l’ancien PDG de Google craint ce que l’IA pourrait devenir à l’avenir.

Une nouvelle publiée dans The Verge nous remet sur le fil du rasoir en ce qui concerne l’IA, car Spotify clonera les voix de ses animateurs de podcasts avec l’IA et les traduira dans d’autres langues. Selon le média, les premiers à passer par ce processus seront quelques noms importants de leurs exclusivités américaines.

Traduction avec l’aide d’OpenAI

La technologie chargée d’effectuer la traduction sera une invention d’OpenAI connue sous le nom de Whisper. Il s’agit d’un outil de transcription qui permet de passer de l’audio en texte en anglais, ainsi que de traduire d’autres langues vers l’anglais. Cependant, pour Spotify, cet outil traduira des voix en voix, en synthétisant la voix de l’animateur pour la reproduire « parlant » dans la traduction.

En réalité, selon le média, OpenAI a annoncé un outil pour créer un audio très similaire à la voix humaine à partir de texte, pour lequel seuls quelques secondes d’un exemplaire de diction seraient nécessaires.

Ziad Sultan, vice-président de la personnalisation chez Spotify, a déclaré que cette fonctionnalité permettra aux auditeurs du monde entier de s’inspirer des podcasteurs de manière plus authentique. Il est difficile de voir comment une synthèse vocale peut être plus authentique que la voix réelle de l’animateur, mais s’il le dit…

En dehors de cela, il faut prendre en compte que ces voix clonées pourraient être utilisées à l’avenir pour ne pas rémunérer les créateurs de contenu. Après tout, nous parlons de Spotify, connu pour payer des misères authentiques aux musiciens en termes de royalties. Quelque chose de ce genre, soutenu par Daniel Ek lui-même, ne nous surprendrait pas du tout.

Détente, découvrez l’évolution du nombre de smartphones vendus par marque au fil du temps dans la vidéo ci-dessous :

YouTube video