Pourquoi c’est important : MosaicML est une startup spécialisée dans l’IA qui a récemment été rachetée par Databricks pour 1,3 milliard de dollars. Les deux sociétés prônent une approche DIY des systèmes d’IA et des plateformes de formation LLM, permettant aux entreprises de garder le contrôle de leurs applications d’IA. En ce qui concerne le hardware, MosaicML affirme que les puces AMD peuvent fournir des performances presque équivalentes à celles des puces NVIDIA.
Comme le montre clairement la récente augmentation de la capitalisation boursière de NVIDIA, l’industrie de l’IA a désespérément besoin de nouveau hardware pour former des modèles de langage de grande taille (LLM) et d’autres algorithmes basés sur l’IA. Alors que les GPU pour serveurs et HPC peuvent être sans valeur pour les jeux, ils servent de base aux centres de données et aux superordinateurs qui effectuent les calculs hautement parallélisés nécessaires à ces systèmes.
En ce qui concerne l’entraînement à l’IA, les GPU de NVIDIA ont été les plus appréciés jusqu’à présent. Ces dernières semaines, la société a brièvement atteint une capitalisation boursière sans précédent de 1 000 milliards de dollars pour cette même raison. Toutefois, MosaicML souligne désormais que NVIDIA n’est qu’un choix parmi d’autres sur un marché du hardware aux multiples facettes, suggérant aux entreprises qui investissent dans l’IA de ne pas dépenser aveuglément une fortune pour les puces très recherchées de Team Green.
La startup spécialisée dans l’IA a testé les cartes AMD MI250 et NVIDIA A100, qui ont toutes deux une génération de retard sur les GPU HPC phares actuels de chaque société. Elle a utilisé ses propres outils logiciels, ainsi que le logiciel libre PyTorch soutenu par Meta et le logiciel propriétaire d’AMD pour les tests.
MosaicML a entraîné un algorithme LLM sans modifier le code logiciel sous-jacent et a constaté que les puces AMD étaient presque aussi performantes que celles de NVIDIA.

Lors de tests basés sur des charges de travail réelles, MosaicML rapporte que la pile de formation LLM est restée stable et a bien fonctionné sans aucune configuration supplémentaire. Les GPU AMD MI250 ont été « compétitifs », a déclaré la société, fournissant 80 % du débit de données par GPU offert par le modèle A100 40 Go de NVIDIA et dans une limite de 73 % par rapport au modèle A100 800 Go.
Hanlin Tang, directeur de la technologie chez MosaicML, déclare que la principale faiblesse de la plupart des entreprises fabriquant des puces pour l’accélération des algorithmes de ML réside dans leur logiciel. AMD a excellé dans ce domaine, et l’entreprise s’attend à des performances encore meilleures sur les nouveaux GPU HPC, car les outils logiciels continuent de s’améliorer. Il convient toutefois de mentionner que CUDA, le cadre de programmation de bas niveau de NVIDIA, est devenu une sorte de norme dans l’industrie, du moins pour l’instant. CUDA n’est ni parfait, ni élégant, ni particulièrement facile, mais il est familier et réservé à NVIDIA.
AMD est naturellement satisfait des résultats de MosaicML, qui semblent valider la stratégie de l’entreprise consistant à soutenir un « écosystème logiciel ouvert et facile à mettre en œuvre » pour l’apprentissage et l’inférence de l’IA sur ses puces. NVIDIA, quant à elle, n’a pas souhaité faire de commentaires.
Découvrez le reportage du mois (sous-titré en français), l’IA gagnera t-elle face aux champion du monde du jeu de Go ? :

