Le codec audio assisté par l'IA de Meta revendique un taux de compression 10x par rapport aux MP3

TL;DR : Encodec est un codec audio de nouvelle génération basé sur une conception de réseau neuronal complexe, un système qui peut compresser beaucoup de jus audio dans un espace de stockage minimal. Le codec fonctionnerait pour les expériences Metaverse et l’optimisation des appels téléphoniques mobiles.

Grâce à sa haute efficacité et à le prise en charge intégrée par des produits emblématiques comme l’éternel lecteur Winamp, le codec MP3 est devenu la norme de facto pour le partage de fichiers audio sur Internet au cours des années 90 et au-delà. Désormais, un nouveau codec veut refaire l’histoire en offrant des gains encore plus extrêmes en termes d’efficacité et d’économie de bande passante. Le secret est un algorithme d’IA capable d' »hypercompresser » les flux audio.

Les méta-chercheurs ont conceptualisé Encodec comme une solution potentielle pour soutenir les expériences de haute qualité « actuelles et futures » dans le métaverse. La nouvelle technologie est un réseau neuronal formé pour « repousser les limites de ce qui est possible » dans la compression audio pour les applications en ligne. Le système peut atteindre « un taux de compression d’environ 10x » par rapport à la norme MP3.

Meta a formé l’IA « de bout en bout » pour atteindre une taille cible spécifique après compression. Encodec peut compresser un flux de données MP3 de 64 Kbps en 6 Kbps, ce qui indique qu’il n’a besoin que de 6 144 octets (oui, octets) pour conserver la même qualité que l’original. Les chercheurs affirment que le codec peut compresser des échantillons audio stéréo de 48 kHz pour la parole, une première dans l’industrie.

L’approche basée sur l’IA peut « compresser et décompresser l’audio en temps réel pour des réductions de taille à la pointe de la technologie », avec des résultats potentiellement incroyables, comme le montre l’exemplaire partagé sur le blog AI de Meta. Les codecs classiques comme MP3, Opus ou EVS décomposent le signal entre différentes fréquences et encodent aussi efficacement que possible en tirant parti de la psychoacoustique (l’étude de la perception sonore humaine). Les méthodes d’Encodec sont basées sur une conception complexe comprenant trois parties : l’encodeur, le quantificateur et le décodeur.

L’encodeur prend des données non compressées et les transforme en une représentation de dimension supérieure et de fréquence d’images inférieure. Le quantificateur comprime ce flux à la taille cible tout en conservant les informations les plus vitales pour reconstruire le signal d’origine. Enfin, le décodeur transforme le signal compressé en une forme d’onde « aussi similaire que possible à l’original ».

Le modèle d’apprentissage automatique d’Encodec identifie les changements audio qui sont imperceptibles pour les humains, en utilisant des discriminateurs pour améliorer la qualité perçue des sons générés. Meta a décrit ce processus comme un « jeu du chat et de la souris », le discriminateur faisant la différence entre les échantillons originaux et reconstruits. Le résultat final est une compression audio supérieure dans la parole à faible débit (1,5 kbps à 12 kbps).

Encodec peut encoder et décoder des données audio en temps réel sur un seul cœur de processeur, a déclaré Meta, et il offre toujours de nombreux domaines d’amélioration pour des tailles de fichiers encore plus petites. Au-delà du prise en charge des expériences Metaverse de nouvelle génération sur les connexions Internet actuelles, le nouveau modèle pourrait potentiellement garantir des appels téléphoniques de meilleure qualité dans les zones où la couverture mobile est tout sauf optimale.

Le codec audio assisté par l’IA de Meta revendique un taux de compression 10x par rapport aux MP3

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Version expérimentale de ChatGPT s’échappe et attaque une autre entreprise d’IA

Les pays prêts à suivre la France en interdisant les réseaux sociaux aux enfants

Ofcom ‘incapable de prendre de nouvelles mesures juridiques contre le forum sur le suicide’

Éclipse solaire du 12 août : sans lunettes certifiées, vous risquez des lésions irréversibles

Les pays prêts à suivre la France dans l’interdiction des réseaux sociaux pour les enfants

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?