Le contexte général: Les produits d’IA générative sont généralement conçus pour créer facilement des images fixes ou des extraits de texte en interprétant les instructions des utilisateurs. La société autrefois connue sous le nom de Facebook veut étendre cette capacité pour inclure du contenu audio et musical dans l’équation.
Meta a récemment lancé AudioCraft, sa structure de génération d’audio et de musique « de haute qualité », avec une licence open source. La technologie est conçue pour combler un vide sur le marché de l’IA générative, où la création audio a historiquement été en retard. Bien que des progrès aient déjà été réalisés dans ce domaine, l’entreprise reconnaît que les solutions existantes sont très compliquées, peu ouvertes et peu accessibles pour l’expérimentation.
La structure AudioCraft est une bibliothèque PyTorch pour la recherche en apprentissage approfondi sur la génération audio, comprenant trois composants principaux : MusicGen, AudioGen et EnCodec. Selon Meta, MusicGen génère de la musique à partir d’entrées utilisateur basées sur du texte, tandis qu’AudioGen est conçu pour créer des effets audio. EnCodec, introduit en 2022, est une technologie d’encodage puissante capable de « hypercompresser » les flux audio.
Le modèle d’IA MusicGen peut générer des mélodies accrocheuses et des chansons à partir de zéro. Meta fournit quelques exemples générés à partir de textes tels que « Piste de danse pop avec des mélodies accrocheuses, des percussions tropicales et des rythmes entraînants, parfaite pour la plage » ou « Tons naturels, respectueux de l’environnement, infusés d’ukulélé, harmoniques, aérés, instrumentation organique, grooves doux. »
AudioGen peut être utilisé pour générer des effets sonores d’ambiance environnementale, tels qu’un chien qui aboie ou une sirène qui approche et passe près de l’auditeur. La sortie open source d’EnCodec est une version améliorée du codec présenté en 2022, car il permet désormais une génération de musique de meilleure qualité avec moins d’artefacts.
AudioCraft propose une approche simplifiée de la génération audio, ce qui a toujours été un défi. La création de n’importe quel type d’audio haute fidélité nécessite la modélisation de signaux et de motifs complexes à différentes échelles, explique l’entreprise. La musique est le type d’audio le plus difficile à générer, car elle se compose de motifs locaux et à longue portée. Les modèles précédents utilisaient des représentations symboliques comme MIDI ou des rouleaux de piano pour générer du contenu, explique Meta, mais cette approche est insuffisante pour capturer toutes les « subtilités expressives et les éléments stylistiques » présents dans la musique.
Meta affirme que MusicGen a été formé sur environ 400 000 enregistrements accompagnés de descriptions et de métadonnées. Le modèle a assimilé 20 000 heures de musique appartenant directement à l’entreprise ou spécifiquement autorisées à cette fin. Comparé à OpenAI et à d’autres modèles génératifs, Meta semble chercher à éviter toute controverse en matière de licence ou tout problème juridique lié à des pratiques de formation non éthiques.
Découvrez le reportage du mois (sous-titré en français), l’IA gagnera t-elle face aux champion du monde du jeu de Go ? :
