La dernière innovation d’Elon Musk dans le domaine de l’IA a débouché sur la création d’un superordinateur colossal, se distinguant par son architecture audacieuse qui dévie des normes traditionnelles. Ce système révolutionnaire promet de redéfinir les performances de réseaux pour des applications d’intelligence artificielle sans précédent.
Le système informatique haute performance conçu par xAI, doté de 100 000 GPUs Hopper, se nomme Colossus. Contrairement à l’InfiniBand, ce système utilise la plateforme de mise en réseau Spectrum-X de l’entreprise, que NVIDIA a acquise en 2019 avec le dernier fournisseur indépendant de cette technologie, Mellanox.
NVIDIA a déclaré que les concepteurs de Colossus avaient atteint l’énorme échelle du système grâce à Spectrum-X. Cette technologie améliore considérablement les performances d’accès direct à la mémoire tout en utilisant des dispositifs de communication Ethernet « basés sur des normes ». Colossus a été construit en un temps record, et l’équipe de xAI est actuellement en train de doubler ses performances en installant 100 000 GPUs Hopper supplémentaires dans le système.

Les dispositifs Ethernet standard ne suffisent pas pour Colossus, car ils peuvent provoquer des milliers de collisions de flux et offrir un faible throughput de 60 %. En revanche, Spectrum-X garantit « aucune dégradation de latence d’application » et élimine la perte de paquets due aux collisions de flux, maintenant un throughput de données significativement plus élevé de 95 % grâce à son système de « contrôle de congestion ». Colossus entraîne de grands modèles de langage de la famille Grok et nécessite des performances réseau « inédites » pour cela.
Spectrum-X n’est pas une technologie Ethernet ordinaire. Le Core de la plateforme est le Switch Ethernet Spectrum SN5600, que NVIDIA affirme pouvoir supporter jusqu’à 800 Gbps par port unique. Ce Switch est construit sur un ASIC personnalisé Spectrum-4, et xAI l’a associé aux SuperNICs NVIDIA BlueField-3 pour accélérer efficacement la communication GPU à GPU.
.@xAI‘s Colossus in Memphis, the world’s largest AI supercomputer with 100,000 NVIDIA Hopper GPUs, achieves new heights with NVIDIA Spectrum-X Ethernet. A testament to NVIDIA’s dedication to #AI progress.
Read more: https://t.co/NDSMpQKbGl pic.twitter.com/KpLpWg3Ao1
– NVIDIA (@nvidia) Octobre 28, 2024
L’InfiniBand a été spécialement conçu pour répondre aux besoins de communication des systèmes HPC, en maintenant la perte de paquets à un minimum absolu. Bien que l’Ethernet ait un taux de perte de données significativement plus élevé, il reste extrêmement populaire, même sur le marché HPC sensible à la vitesse, en raison de facteurs tels que la haute compatibilité, le choix des fournisseurs et les capacités potentielles de bande passante plus élevées par port unique.
NVIDIA a affirmé que sa plateforme de mise en réseau Ethernet Spectrum-X pouvait accélérer le développement de systèmes d’IA performants comme Colossus, réduisant le temps nécessaire à la mise en service de grandes machines HPC. La technologie Spectrum-X est évolutive et pourrait potentiellement offrir des fonctionnalités réseau qui étaient auparavant disponibles uniquement par le biais des solutions InfiniBand.
