Le point de vue de la rédaction : Les GPU sont aujourd’hui la principale option de semi-driver pour la plupart des systèmes d’IA, mais nous pensons que d’autres puces joueront un rôle important à l’avenir, notamment les CPU et peut-être même les FPGA.

Avec tous les hype autour de l’IA, nous avons remarqué que la plupart des personnes ont adopté la position par défaut selon laquelle toutes les charges de travail de l’IA seront toujours exécutées sur des GPU. Voir le cours de l’action NVIDIA comme version à conviction 1 pour cette ligne de pensée. Nous pensons que la réalité pourrait être un peu différente, avec une gamme beaucoup plus large de puces entrant en jeu.

Pour être clair, les GPU sont très bien conçus pour les travaux d’IA – et il n’y a aucune menace pour le cours de l’action de NVIDIA à l’horizon. Ce que nous appelons l’IA est en réalité de la statistique appliquée, plus précisément des modèles de régression statistique très avancés.

Au cœur de ces applications se trouve l’algèbre matricielle, qui implique des problèmes mathématiques assez simples, comme la multiplication d’un nombre par un autre, mais qui est réalisée à grande échelle. Les GPU sont conçus avec des cœurs plus petits (mathématiques plus simples) en grandes quantités (échelle massive). Il était donc logique de les utiliser à la place des CPU avec leur nombre plus restreint de cœurs plus grands.

Cette image devient un peu plus floue aujourd’hui. D’une part, les GPU sont devenus beaucoup plus chers. Ils sont plus performants pour les calculs d’IA, mais à un moment donné, il devient économiquement plus intéressant de passer aux processeurs.

Le marché des semi-conducteurs d’IA se divise en réalité en trois segments : la formation, l’inférence dans le nuage et l’inférence à la périphérie. Pour l’instant, la formation équivaut essentiellement à NVIDIA, mais ce n’est qu’une petite partie du marché. L’inférence dans le nuage sera un marché beaucoup plus important – comme de plus en plus de personnes utilisent ces modèles d’IA, la demande d’inférence augmentera et, pour l’instant, une grande partie de ce travail sera effectuée dans le nuage. Pour l’instant, une grande partie de ce travail sera effectuée dans le nuage. Il semble que cela va coûter très cher à de nombreuses entreprises pour développer leur capacité. Dylan Patel, comme d’habitude, est celui qui présente le mieux ces mathématiques, mais il suffit de dire que la facture de l’inférence est susceptible d’être une pierre d’achoppement majeure pour l’adoption de l’IA par les consommateurs au cours de l’année prochaine ou à peu près.

Compte tenu du coût et de la rareté relative des GPU, nous pensons que de nombreuses entreprises commenceront à explorer des alternatives aux GPU pour exécuter des charges de travail d’inférence, en particulier pour les entreprises qui combinent ces résultats d’IA avec d’autres fonctions, comme la recherche ou les médias sociaux, des charges de travail qui, de toute façon, fonctionnent encore mieux sur les CPU.

À plus long terme, nous pensons que l’économie de l’IA va exiger que le travail d’inférence se fasse beaucoup plus à la périphérie, c’est-à-dire sur les appareils que les consommateurs paient. Cela indique que les téléphones mobiles et les PC vont avoir besoin de fonctionnalités d’IA et cela signifiera probablement qu’ils fonctionnent sur des CPU et des SoC mobiles.

AMD a récemment dévoilé une fonctionnalité d’IA intégrée dans ses processeurs clients, et Apple a intégré des moteurs neuronaux dans ses processeurs mobiles de la série A et dans ses processeurs de la série M. Nous nous attendons à ce que cela devienne bientôt monnaie courante dans les appareils de pointe.

Bien sûr, de nombreuses entreprises cherchent à construire des accélérateurs d’IA – des puces spéciales conçues pour effectuer des calculs d’IA. Mais cela s’est avéré n’être possible que dans des entreprises comme Google, qui contrôlent tous leurs logiciels. Une grande partie du problème de ces puces spéciales est qu’elles ont tendance à être surdimensionnées pour un ensemble spécifique de charges de travail ou de modèles d’IA, et lorsque ces modèles changent, ces puces perdent leur avantage en termes de performances.

Tout cela nous amène à l’un des aspects les plus méconnus des semi-conducteurs : les FPGA. Il s’agit de puces « programmables » (le « P » indique programmable), ce qui indique qu’elles peuvent être réaffectées à différentes tâches après leur production. Ils se situent à l’opposé des ASIC spécialement conçus pour une tâche spécifique, comme les accélérateurs d’intelligence artificielle.

Les FPGA existent depuis des années. L’économie des semi-conducteurs indique généralement qu’au-delà d’un certain seuil de volume, un ASIC est plus judicieux, mais pour les applications à faible volume telles que les systèmes industriels et aérospatiaux, ils fonctionnent très bien. Les FPGA sont donc omniprésents et touchent des dizaines de marchés finaux, mais nous les connaissons moins bien parce qu’ils n’apparaissent généralement pas dans les produits électroniques à grand volume que le consommateur moyen utilise tous les jours.

L’avènement de l’IA modifie quelque peu ce calcul. Pour ces charges de travail, les FPGA peuvent s’avérer utiles pour les besoins d’inférence de l’IA lorsque le modèle sous-jacent change fréquemment. Dans ce cas, la programmabilité des FPGA l’emporte sur l’économie typique de l’utilisation des FPGA. Pour être clair, nous ne pensons pas que les FPGA seront un rival sérieux pour les systèmes d’IA massifs utilisant des milliers de GPU, mais nous pensons que la gamme d’applications pour les FPGA augmentera à mesure que l’IA s’infiltrera davantage dans l’électronique.

En résumé, les GPU resteront probablement la puce dominante pour une grande partie du paysage de l’IA, en particulier pour les modèles à haut profil et à grand volume. Mais au-delà, nous pensons que l’utilisation de puces alternatives deviendra une partie importante de l’écosystème, une opportunité plus grande que ce qui semble probable aujourd’hui.

