AWS réinvente l'IA avec le nouveau chip Trainium 2, des améliorations Bedrock et SageMaker Studio

Lors de sa conférence annuelle re:Invent, AWS a annoncé des améliorations significatives de ses produits pour faciliter l’intégration de l’IA générative, réduisant ainsi la complexité pour les entreprises. Ces avancées incluent des puces personnalisées, des plateformes améliorées et l’introduction de nouveaux modèles, rendant AWS un fournisseur incontournable dans le domaine.

La vue d’ensemble : Une chose est désormais claire concernant l’IA générative : nous sommes encore aux débuts de cette technologie. Des évolutions majeures et des perfectionnements des produits existants vont continuer à marquer l’actualité de l’industrie technologique pendant un certain temps.

Lors de leur conférence annuelle re:Invent à Las Vegas, les services Web d’Amazon (AWS) ont parfaitement illustré cette tendance avec une série d’annonces de produits et de services principalement axées sur l’amélioration de leurs offres existantes, plutôt que sur des innovations complètement nouvelles.

Pour être clair, quelques nouveautés authentiques se sont glissées dans le flux d’annonces qui est devenu synonyme de discours d’ouverture d’AWS – particulièrement concernant les modèles de base. Même là, cependant, on peut avancer que l’accent était largement mis sur le rebranding ou le remplacement de produits existants.

Une part de cette approche réside dans le fait que les grandes entreprises technologiques comme Amazon ont réussi à définir et créer un cadre de haut niveau pour permettre l’IA générative. Avec le temps, cependant, il est devenu évident que ces outils et processus n’ont pas totalement répondu aux besoins de nombreux clients.

En d’autres termes, tirer parti des capacités de l’IA générative était, et dans de nombreux cas reste, trop complexe pour la plupart des organisations.

Avec cela à l’esprit, AWS s’est concentré sur la résolution de ces lacunes lors de cette édition de re:Invent. Ils ont perfectionné des outils et regroupé des produits et services existants pour réaliser des avancées significatives vers la simplification de la création et du déploiement des technologies d’IA générative. Ces efforts étaient conçus pour s’adapter aux entreprises ayant divers niveaux de sophistication technique.

Il est à noter qu’ils ont relevé ce défi à travers un large éventail d’offres, y compris des silicons personnalisés, des modèles de base, des améliorations de bases de données, des outils pour développeurs et des plateformes logicielles.

En commençant par le niveau des silicons, le nouveau PDG d’AWS Matt Garman a ouvert son discours en soulignant les investissements considérables de l’entreprise dans des puces personnalisées au cours de la dernière décennie. Il a mentionné la décision judicieuse de l’entreprise d’investir dans des CPU basés sur Arm avec sa puce Graviton, indiquant que leur activité basée sur Graviton est désormais plus importante que l’ensemble des activités de calcul d’AWS au moment du lancement de Graviton. Il a ensuite annoncé la disponibilité générale de la puce Trainium 2 et des instances de calcul EC2 optimisées pour les charges de travail de formation et d’inférence AI utilisant ces puces.

Allant plus loin, Garman a affirmé que Trainium 2 représente la première alternative viable aux GPU NVIDIA – notamment à un coût d’exploitation significativement inférieur. Bien que la validité de cette affirmation reste à vérifier, les premières discussions autour de l’architecture de la puce suggèrent qu’il s’agit d’une amélioration significative par rapport à la première génération de Trainium.

Fait intéressant, Garman a également révélé des détails préliminaires concernant Trainium 3, signalant l’engagement profond de l’entreprise envers le développement continu des silicons. Malgré ces efforts en silicons personnalisés, AWS a réaffirmé le rôle test de NVIDIA en annonçant de nouvelles instances EC2 avec les GPU Blackwell de NVIDIA, qui seront bientôt lancées.

Bien sûr, un composant essentiel de tout système de calcul GenAI est le logiciel utilisé pour construire et peaufiner les modèles et applications qui fonctionnent sur ce hardware. À cet égard, Garman a présenté de nombreuses améliorations aux plateformes Amazon SageMaker et Bedrock, y compris le lancement de SageMaker Studio, qui consolide des services AWS auparavant indépendants en une interface utilisateur unifiée.

Bâtissant sur son héritage en tant qu’outil pour les data scientists et les premiers modèles d’IA/ML, SageMaker est devenu de plus en plus important à l’ère de l’IA générative, permettant le développement, la formation et le fine-tuning de modèles de base. Sans surprise, SageMaker Studio propose désormais des améliorations qui tirent pleinement parti des nouvelles capacités de Trainium 2, positionnant cette combinaison comme une alternative compétitive aux CUDA et GPU de NVIDIA.

Les améliorations apportées à Bedrock – une plateforme conçue pour les développeurs d’applications GenAI souhaitant travailler avec des modèles de base existants – incluent de nouveaux modèles bien connus et l’introduction d’un Marché Bedrock pour un choix de modèles élargi.

Deux ajouts particulièrement intrigants à Bedrock sont sa fonction de distillation de modèle et une méthode pour réduire les hallucinations. La distillation Bedrock permet de compresser de grands modèles avançés – tels que le modèle Llama à 405 milliards de paramètres – en une version aussi compacte qu’un modèle de 8 milliards de paramètres grâce à des techniques de personnalisation spécialisées.

Alors que ce processus partage des similitudes avec la génération augmentée par récupération (RAG), il utilise des méthodes distinctes qui peuvent produire des résultats encore plus efficaces. Pendant ce temps, Bedrock Guardrails comprend désormais une vérification de raisonnement automatisée, une technique mathématiquement vérifiable conçue pour réduire considérablement les hallucinations dans les sorties d’IA générative. Bien que les détails sur son fonctionnement soient rares, cela ressemblait certainement à une percée potentiellement très importante.

Bedrock intègre également certaines capacités de fine-tuning auparavant exclusives à SageMaker mais présentées à un niveau d’abstraction supérieur. Bien que cela améliore la polyvalence de Bedrock, cela peut créer des chevauchements et des confusions concernant l’outil le mieux adapté pour une tâche ou un type d’utilisateur spécifique.

Amazon a été confronté à la même sorte de confusion concernant le rôle de SageMaker, Bedrock et leurs capacités d’agent Q lorsqu’ils ont d’abord introduit Q lors de re:Invent de l’année dernière (voir « La stratégie GenAI d’Amazon AWS s’accompagne d’un grand Q »). Depuis, je pense qu’ils ont amélioré le positionnement de chaque option dans leur pile de développement, mais c’est encore extrêmement complexe et mérite une simplification et une clarification des messages encore plus grandes.

Pour mieux relever les défis que les entreprises rencontrent pour organiser leurs données en vue de l’ingestion dans des modèles de base GenAI, AWS a introduit des améliorations notables à leurs offres de stockage S3 et de bases de données. Parmi les points forts figurent le support des tables de données Apache Iceberg gérées pour accélérer l’analyse des lacs de données et la création automatique de métadonnées recherchables. Ces annonces, accompagnées d’autres, soulignent l’engagement d’AWS à améliorer la préparation et l’organisation des données.

Pour les développeurs, AWS a dévoilé Amazon Q Developer, une suite de capacités alimentées par l’IA pour aider à écrire du nouveau code, moderniser le code Java hérité et de mainframe, automatiser la documentation du code, et plus encore.

Deux des plus grandes surprises du discours d’AWS étaient le retour de l’ancien PDG d’AWS (et maintenant PDG d’Amazon) Andy Jassy et la présentation des nouveaux modèles de base de l’entreprise, baptisés Nova. Cette gamme comprend quatre niveaux de modèles multimodaux, ainsi que des modèles spécialisés pour la création d’images et de vidéos.

Ensemble avec la puce Trainium, les améliorations de SageMaker et Bedrock, ainsi que les outils de bases de données améliorés, les modèles Nova forment un portefeuille complet d’IA générative. AWS estime que cela les positionne comme un fournisseur de solutions à part entière leader dans le domaine de l’IA générative.

Cependant, l’introduction de Nova soulève des questions. Les modèles Nova remplacent les modèles Titan d’Amazon, qui étaient salués il n’y a pas longtemps comme une partie clé de leur stratégie d’IA. Ce changement soudain pourrait troubler le message pour les entreprises et développeurs travaillant déjà avec Titan. Toutefois, des discussions avec des représentants d’AWS suggèrent que Nova représente un bond en avant significatif en matière d’architecture et de performance. Bien que la décision de pivoter de Titan puisse susciter des interrogations, elle reflète la nature dynamique et en rapide évolution de l’espace de l’IA générative.

En sortant de l’événement, je ne pouvais m’empêcher d’être impressionné par la vaste gamme d’améliorations qu’AWS a apportées à ses outils et services d’IA générative. Alors que la technologie continuera sans aucun doute à évoluer, à mesure que nous passerons de l’ère des concepts de preuve d’IA générative aux déploiements d’IA générative à l’échelle de l’entreprise, avoir accès à un ensemble complet d’outils fournis par un grand fournisseur de cloud computing qui traite plusieurs points de douleur initiaux va sans doute changer la donne.

AWS réinvente l’IA avec le nouveau chip Trainium 2, des améliorations Bedrock et SageMaker Studio

BLUETTI Balco Transfer Hub : votre batterie de camping peut aussi payer vos factures d’électricité

LOFREE Flow 2 Mac : Enfin un clavier mécanique qui joue dans la cour d’Apple !

EZVIZ CB8 Lite : Caméra solaire WiFi 6 qui surveille sans jamais s’arrêter, enfin à prix cassé

Rubrique Les applications conçues par nos lecteurs numéro 135

OnePlus crée le buzz autour du Nord 6 et dévoile ses performances de charge ultrarapide

Comment savoir si quelqu’un vous a archivé ou réduit au silence sur WhatsApp

Le botnet AryStinger a infecté des milliers de routeurs D-Link dans le monde

Pourquoi Google persiste avec son processeur Tensor moins performant que ceux de Qualcomm ou MediaTek

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?

LOFREE Flow 2 100 : Clavier mécanique low-profile, aluminium, beau et bien construit

TEST Reolink Home Hub : L’enregistrement de vos caméras Wi-Fi sans abonnement