IBM réoriente sa stratégie vers le développement de composants matériels dédiés à l’intelligence artificielle générative, marquant une évolution significative dans son approche face à un marché en pleine expansion. Les récentes innovations comprennent le processeur Telum II et l’accélérateur Spyre, conçus pour optimiser les performances des charges de travail modernes d’IA.
Après avoir tenté (sans succès) de positionner Watson comme la plateforme de nouvelle génération pour les applications d’IA, IBM se concentre désormais sur la création de composants matériels pour les derniers modèles d’IA générative. Le marché évolue, la technologie d’IA passe à la production et Big Blue est impatient de prendre une part de la domination de NVIDIA le plus tôt possible.
IBM a récemment annoncé le processeur Telum II et l’accélérateur Spyre, deux conceptions de puces destinées à aider les clients à gérer les charges de travail d’IA modernes. L’entreprise donne naturellement la priorité à la vente de son propre hardware, c’est pourquoi les deux puces sont exclusivement compatibles avec les ordinateurs centraux IBM z16.
Telum II est la dernière itération de l’architecture Telum, introduite en 2021. IBM a déclaré que la nouvelle puce a été développée à l’aide du processus de fabrication 5 nm de Samsung et dispose de huit cœurs hautes performances fonctionnant à 5,5 GHz. La société a également révélé une augmentation de 40 % de la mémoire cache intégrée, avec des capacités virtuelles L3 et L4 s’étendant respectivement à 360 Mo et 2,88 Go.
La puce Telum II comprend également une nouvelle unité de traitement de données, conçue pour accélérer les opérations d’E/S directement au sein du processeur. « Ces améliorations matérielles sont conçues pour offrir des améliorations de performances significatives aux clients par rapport aux générations précédentes », a déclaré IBM. Chaque nouveau processeur Telum II devrait offrir une puissance de calcul multipliée par 4, atteignant 24 000 milliards d’opérations par seconde (TOPS).

Selon IBM, les TOPS ne suffisent pas à expliquer toute l’histoire. L’architecture Telum a été améliorée et optimisée pour l’écosystème d’IA actuel, avec un débit élevé et une inférence à faible latence. La nouvelle puce prend également en charge les types de données INT8, ce qui devrait accroître l’efficacité des applications conçues avec la technologie INT8, comme les nouveaux modèles d’IA.
Le deuxième composant hardware d’IA présenté par IBM à Hot Chips 2024 est le Spyre Accelerator, une carte PCIe contenant 32 cœurs d’accélérateur d’IA, qui partagent une architecture similaire à l’accélérateur d’IA inclus dans le processeur Telum II. IBM suggère aux clients potentiels d’utiliser à la fois le Telum II et le Spyre pour exécuter des ensembles de modèles d’IA plus importants dans ce que l’entreprise appelle des cas d’utilisation « d’IA d’ensemble ».
La méthode d’IA d’ensemble exploite plusieurs modèles d’IA pour améliorer les performances et la précision des résultats finaux. IBM a expliqué cette technologie à l’aide d’un exemple de détection de fraude aux réclamations, où l’évaluation initiale des risques effectuée par les réseaux neuronaux traditionnels est combinée à de grands modèles de langage. Selon IBM, les techniques d’IA d’ensemble sont si efficaces pour optimiser les charges de travail de l’IA qu’elles peuvent se conformer aux exigences réglementaires tout en atténuant les délits financiers.
Le processeur Telum II et le Spyre Accelerator ont de nombreux domaines d’application. IBM a souligné que ses nouvelles puces peuvent prendre en charge la détection des fraudes, les modèles avancés de lutte contre le blanchiment d’argent, etc. Elles peuvent également être utilisées pour développer des assistants IA, a ajouté la société.
