Comment DeepDub fonctionne et pourquoi il ne peut pas remplacer les acteurs de la voix

Comment DeepDub fonctionne et pourquoi il ne peut pas remplacer les acteurs de la voix

Dans un pays comme le nôtre, où le doublage a toujours été considéré comme une œuvre artisanale et artistique, il a a provoqué à juste titre une sensation à l’existence de DeepDub, un outil développé par une startup israélienne qui utilise l’intelligence artificielle pour faire entendre des acteurs et des conteurs dans des films, des séries télévisées et des documentaires et les faire parler dans toutes les langues avec le cachet des propriétaires. Le réseau de doublage italien Vix Vocal a récemment rassemblé les voix de certaines superstars de la scène italienne pour une campagne de sauvegarde de la profession; la réalité, cependant, est que, du moins pour la façon dont il est structuré pour le moment, DeepDub ne représente pas un danger pour les acteurs de la voix.

Qu’est-ce que DeepDub

Né en Israël en 2019 par la startup du même nom, DeepDub est un outil qui utilise l’intelligence artificielle pour effectuer de manière indépendante diverses tâches, dont deux sont fondamentales: d’une part, écouter le discours des personnes qui enregistrent leur voix pour capturer les aspects marquants du timbre et de la tonalité; d’autre part, utilisez ces informations pour synthétiser de nouveaux sons avec les mêmes caractéristiques, de sorte qu’ils semblent provenir des mêmes cordes vocales. Le résultat est un modèle vocal qui est ensuite fait parler avec des traductions proposées par des algorithmes de traduction, puis perfectionné par des relecteurs en chair et en os pour éviter que le sens de certains mots ne se perde dans la traduction automatique.

La question ne manque pas

La demande potentielle pour une telle technologie ne manque pas: avec leavènement des plateformes de streaming, tout contenu audiovisuel a en effet potentiellement trouvé un système de distribution mondial. La prochaine étape à cet égard sont les services de localisation, qui rendent les spectacles et les films utilisables partout: le doublage en particulier rend les contenus étrangers beaucoup plus attractifs que les sous-titres mais demande du temps, de l’argent et du professionnalisme. C’est là qu’intervient DeepDub, promettant de sauter cette étape pour proposer des produits finis à un prix infiniment inférieur; pour les développeurs, ce ne sera qu’une question de temps avant que les géants de la distribution ne décident de profiter de la situation: l’automatisation du doublage leur permettrait d’économiser sur la localisation, et donc de proposer des abonnements à un prix inférieur à celui proposé par les concurrents.

Les préoccupations des acteurs de la voix

En bref, il n’est pas surprenant que quiconque travaille dans le doublage s’inquiète de l’apparition d’une telle technologie. De Francesco Pannofino à Claudio Ammendola en passant par Eleonora De Angelis, Roberto Chevalier et bien d’autres: de nombreux acteurs et doubleurs ont littéralement prêté leur voix à l’initiative. Au-delà de la peur pour l’avenir de leur métier et celle de tous les techniciens impliqués, les participants abordent un aspect intéressant: le doublage est toujours un métier. loin d’être automatisé.

Les faiblesses de DeepDub

Tout d’abord, dans un film ou dans une série télévisée, les dialogues ne sont jamais affectés par des traductions littérales, mais par localisations: les différences culturelles entre une langue et une autre peuvent en effet rendre inadmissible un produit traduit automatiquement. L’écoute du timbre original des acteurs peut aussi intriguer les spectateurs, mais l’expérience manquera toujours d’un aspect fondamental: l’émotion etintention que les acteurs inculquent à leur personnage.

Une partie du travail des acteurs de la voix est de comprendre cela apparence impalpable de la transcription et du discours des acteurs originaux, pour ensuite se l’approprier et l’exprimer à la manière typique de leur langue. La parole synthétique DeepDub peut être réglée par les développeurs avec des paramètres tels que l’inflexion et la hauteur, mais elle ne peut pas renvoyer la gamme complète d’expressions vocales qu’un humain peut atteindre. Le scénario le plus plausible est que la technologie est appliquée à des produits qui ne nécessitent pas nécessairement des qualités d’acteur ou qui se concentrent sur des budgets dérisoires, tels que des émissions de téléréalité, des documentaires ou des films indépendants.