En bref : Frontier, le supercalculateur le plus puissant du monde, est en ligne mais encore loin d’être opérationnel. Son directeur a confirmé des informations selon lesquelles il connaît une défaillance du système toutes les quelques heures, mais insiste sur le fait que c’est normal.

Frontier est dans une classe à part. Il dispose de 9 408 nœuds HPE Cray EX235a, chacun alimenté par un processeur AMD Trento 7A53 Epyc à 64 cœurs équipé de 512 Go de DDR4, et de quatre GPU/accélérateurs AMD Instinct MI250X équipés chacun de 128 Go de HBM2e. En résumé, le système compte 602 112 cœurs de processeur et 8 138 240 cœurs de GPU au total, et 4,6 Po de DDR4 et HBM2e.

En mai, Frontier a rejoint le TOP500 en tant que premier supercalculateur à briser la barrière exascale après avoir complété le benchmark HPL avec un score de 1,102 ExaFlops/s. Depuis lors, le laboratoire national d’Oak Ridge dans le Tennessee, qui gère le supercalculateur, le prépare pour des recherches scientifiques qui doivent démarrer en janvier.

Cependant, il a été rapporté que le lancement de Frontier pourrait être retardé par des pannes matérielles excessives. À la recherche de réponses, Inside HPC a organisé un entretien avec le directeur du programme d’Oak Ridge, Justin Whitt. Dans l’interview, il a confirmé que Frontier connaissait des pannes système quotidiennes, mais a affirmé que c’était inévitable dans un système aussi vaste.

« Le temps moyen entre les pannes sur un système de cette taille est d’heures, pas de jours », a-t-il déclaré. « Vous devez donc vous assurer que vous comprenez quels sont ces échecs et qu’il n’y a pas de modèles à ces échecs dont vous devez vous préoccuper. » Whitt a ajouté que passer une journée sans échec « serait exceptionnel ».

« Notre objectif est encore heures. »

Il y avait des rumeurs selon lesquelles les problèmes matériels étaient causés par le nouvel AMD Instinct MI250X, mais Whitt les a réfutées. Le MI250X est le GPU/accélérateur le plus puissant d’AMD, et il ne le vend qu’à certains partenaires constructeurs. Il dispose de 220 CU contenant 14 080 cœurs cadencés à 1700 MHz dans un boîtier de 500 W.

« Les problèmes couvrent de nombreuses catégories différentes, les GPU n’en sont qu’un », a fait remarquer Whitt. « Cela a été une assez bonne répartition parmi les coupables courants de défaillances de versions qui en ont été une grande partie. Je ne pense pas qu’à ce stade, nous ayons beaucoup d’inquiétude concernant les produits AMD », a-t-il ajouté.

« Nous avons affaire à beaucoup de choses du début de la vie que nous avons vues avec d’autres machines que nous avons déployées, donc ce n’est pas trop inhabituel. »

Whitt a reconnu que l’ampleur sans précédent de Frontier avait rendu le réglage « un peu plus difficile », mais a déclaré qu’ils suivaient toujours le calendrier établi en 2018-19 malgré les retards causés par la pandémie.

Rendez-vous sur Inside HPC pour lire l’intégralité de l’interview.