Faire rapidement au dépens de la qualité: Des chercheurs de l’Université de Californie à Santa Cruz ont trouvé un moyen d’exécuter un modèle de langage à grande échelle à l’échelle d’un milliard de paramètres en utilisant seulement 13 watts de puissance, soit environ autant qu’une ampoule LED moderne. À titre de comparaison, un GPU de niveau centre de données utilisé pour les tâches LLM nécessite environ 700 watts.
Jusqu’à présent, l’IA a été en grande partie une course pour être le premier, avec peu de considération pour des mesures telles que l’efficacité. Cherchant à changer cela, les chercheurs ont mis au point une technique intensive appelée multiplication matricielle. Cette technique attribue des mots à des nombres, les stocke dans des matrices et les multiplie pour créer un langage. Comme vous pouvez l’imaginer, c’est plutôt gourmand en hardware.
L’approche révisée de l’équipe force à la place tous les nombres de leurs matrices de réseau neuronal à être ternaires, ce qui signifie qu’ils ne peuvent avoir qu’une des trois valeurs suivantes : moins un, zéro ou un positif. Ce changement clé a été inspiré par un article de Microsoft et signifie que tout calcul implique une addition plutôt qu’une multiplication – une approche beaucoup moins gourmande en hardware.
En parlant de cela, l’équipe a également créé du hardware personnalisé à l’aide d’un circuit hautement personnalisable appelé FPGA (field-programmable gate array). Le hardware personnalisé leur a permis d’optimiser toutes les fonctionnalités d’économie d’énergie intégrées au réseau neuronal.

Fonctionnant sur du hardware personnalisé, le réseau neuronal de l’équipe est plus de 50 fois plus efficace qu’une configuration classique. Mieux encore, il offre le même type de performances qu’un modèle haut de gamme comme le Meta’s Llama.
Il est important de souligner que le hardware personnalisé n’est pas nécessaire avec la nouvelle approche : c’est juste la cerise sur le gâteau. Le réseau neuronal a été conçu pour fonctionner sur des GPU standard courants dans l’industrie de l’IA, et les tests ont révélé une consommation de mémoire environ 10 fois inférieure à celle d’un réseau neuronal basé sur la multiplication. Exiger moins de mémoire pourrait ouvrir la porte à des réseaux de neurones à part entière sur les appareils mobiles comme les smartphones.
Avec ce genre de gains d’efficacité en jeu et étant donné la puissance d’un centre de données complet, l’IA pourrait bientôt faire un autre grand pas en avant.
Détente, découvrez l’évolution du nombre de smartphones vendus par marque au fil du temps dans la vidéo ci-dessous :

