Ce n’est pas magique : c’est ainsi que fonctionne la détection audio de Google, l’une des technologies les plus bestiales d’Android

Ce n'est pas magique : c'est ainsi que fonctionne la détection audio de Google, l'une des technologies les plus bestiales d'Android

Google a expliqué en détail comment fonctionne l’une de ses meilleures créations à ce jour.

Ce n'est pas magique : c'est ainsi que fonctionne la détection audio de Google, l'une des technologies les plus bestiales d'Android

Il est arrivé en 2019, avec le Google Pixel 4, et depuis lors, il est devenu un logiciel fondamental sur les appareils de la série Pixel. L’application d’enregistrement vocal semble être un outil simple, mais Google en a fait une démonstration de ses avancées dans les domaines de l’intelligence artificielle, de l’apprentissage automatique et de la reconnaissance vocale.

Récemment, Google a inclus dans cette appli une option qui ressemble presque à de la magie : elle permet de détecter automatiquement s’il y a plusieurs interlocuteurs dans une conversation, et de taguer les interventions de chacun d’entre eux, pour ensuite attribuer des balises dans la retranscription de la enregistrement (ces balises peuvent être modifiées par les noms des interlocuteurs ultérieurement par l’utilisateur lui-même). Tout cela se passe en temps réel et sur l’appareil, sans avoir besoin d’une connexion Internet.

Bien que le fonctionnement semble simple, derrière cette fonction se cache une technologie très avancée, que Google a voulu expliquer en détail.

Application d'enregistrement Pixel 4 XL

L’application Google Pixel Recorder est l’un des meilleurs outils créés par Google à ce jour.

Le processeur Tensor donne vie à l’une des meilleures fonctionnalités de Google Pixel

Dans son article de blog axé sur les avancées liées à l’intelligence artificielle, Google explique qu’une grande partie du système de marquage des interlocuteurs fonctionne sur le bloc Tensor CPU, le processeur intégré aux appareils de la série Google Pixel depuis les Pixels 6. Cependant, à l’avenir, ils ont l’intention de déléguer certaines des tâches à l’unité de traitement du tenseur (TPU) pour réduire la consommation d’énergie.

Le fonctionnement de cette fonction repose sur un système de diarisation des interlocuteurs appelé « Turn-To-Diarize ». Sa mission est de créer des modèles de machine learning optimisés, afin de segmenter des heures d’enregistrements audio en temps réel selon l’interlocuteur, en utilisant les ressources techniques disponibles dans le Google Pixel.

Ce n'est pas magique : c'est ainsi que fonctionne la détection audio de Google, l'une des technologies les plus bestiales d'Android

Google a combiné plusieurs techniques différentes pour faire fonctionner efficacement ce système. D’une part, il est capable de détecter chaque changement d’interlocuteur dans l’enregistrement grâce à un modèle de codage chargé d’extraire les caractéristiques vocales de chaque personne.

D’autre part, un algorithme de regroupement se charge d’attribuer les étiquettes à chacune des personnes qui participent à l’enregistrement.

Une fois l’enregistrement audio segmenté en tours de locuteur homogènes, nous utilisons un modèle d’encodeur de locuteur pour extraire un vecteur de plongement (c’est-à-dire un vecteur d) représentant les caractéristiques vocales de chaque tour de locuteur.

L’une des caractéristiques les plus frappantes de cette fonctionnalité est qu’elle apprend de ses erreurs au fil du temps. Google explique qu’à mesure que le modèle analyse de plus en plus d’audio, il est capable d’attribuer des balises avec plus de précision et peut même apporter des corrections aux balises précédemment attribuées.

Dans notre système de diarisation des locuteurs en temps réel, à mesure que le modèle consomme plus d’entrée audio, il accumule la confiance dans les étiquettes de locuteurs prédites et peut parfois apporter des corrections aux étiquettes de locuteurs prédites auparavant peu fiables. L’application Recorder met automatiquement à jour les étiquettes des haut-parleurs à l’écran pendant l’enregistrement pour refléter les prédictions les plus récentes et les plus précises.

Il est assez incroyable que tout ce processus puisse être exécuté sur un smartphone sans avoir besoin de recourir à une quelconque connexion à un serveur, et en temps réel. Et bien que le marquage automatique ne soit actuellement disponible qu’en anglais, la fonctionnalité devrait inclure la prise en charge de plusieurs langues à l’avenir.