DeepSeek de Chine lance un modèle IA révolutionnaire, défiant OpenAI avec moins de ressources

Deepseek De Chine Lance Un Modèle Ia Révolutionnaire, Défiant Openai

DeepSeek, une entreprise chinoise d’IA, a récemment lancé son modèle de raisonnement, R1, attirant l’attention pour sa performance qui rivalise avec celle des géants de l’IA. Ce succès soulève des discussions passionnantes sur l’impact géopolitique et compétitif de cette avancée technologique, notamment dans le contexte des sanctions américaines.

Que vient-il de se passer ? L’entreprise chinoise d’IA DeepSeek a publié une version open-source de son modèle de raisonnement, R1, le 20 janvier 2025. Ce modèle a suscité beaucoup d’intérêt dans l’industrie technologique en raison de ses performances, qui seraient égales ou supérieures à celles de l’o1 d’OpenAI sur certains critères d’évaluation de l’IA. Depuis sa sortie, les discussions sur les réseaux sociaux sont vives concernant son impact potentiel sur le développement de l’IA et la concurrence entre entreprises technologiques chinoises et américaines.

Le capital-risqueur renommé Marc Andreessen a exprimé son admiration pour cet exploit, écrivant sur X que le modèle de DeepSeek était « l’un des percées les plus incroyables et impressionnantes que j’ai jamais vues. »

Cette réalisation de DeepSeek est particulièrement remarquable compte tenu de la revendication de l’entreprise d’avoir entraîné un modèle avec 671 milliards de paramètres en n’utilisant que 2 048 NVIDIA H800 et 5,6 millions €, une fraction des ressources souvent nécessaires aux géants de l’industrie comme OpenAI et Google. Cette efficacité en termes de coût est d’autant plus frappante face aux sanctions américaines qui restreignent la vente de puces avancées aux entreprises chinoises.

Des commentateurs ont suggéré que, pour ces raisons, ce modèle comporte également des implications géopolitiques. « La performance impressionnante des modèles distillés de DeepSeek […] signifie que des raisonneurs très performants continueront de se répandre largement et pourront être exécutés sur du hardware local, loin des yeux de tout régime de contrôle centralisé », a écrit Dean Ball, chercheur en IA à l’Université George Mason.

Certaines personnes estiment que le succès de DeepSeek pourrait potentiellement profiter à l’ensemble de l’industrie de l’IA. « Si l’entraînement des modèles devient moins cher, plus rapide et plus facile, la demande pour l’inférence (utilisation réelle de l’IA) augmentera et s’accélérera encore plus, ce qui assure que l’approvisionnement en calcul sera utilisé », a écrit Garry Tan, PDG de Y Combinator, sur X.

Cependant, toutes les réactions n’ont pas été uniformément positives. Neal Khosla, PDG de Curai, a exprimé des doutes, suggérant que l’entreprise pourrait être une « psyop de l’état chinois » visant à saper la compétitivité de l’IA américaine. Cependant, cette affirmation a été contestée pour son manque de preuves.

DeepSeek-R1 est un modèle de raisonnement qui emploie une approche pas à pas pour résoudre des problèmes, ce qui le rend particulièrement compétent pour des tâches en physique, scienses et mathématiques. Le modèle contient 671 milliards de paramètres, qui contribuent à ses capacités de résolution de problèmes.

DeepSeek a également publié des versions « distillées » plus petites de R1, allant de 1,5 milliard à 70 milliards de paramètres, la plus petite étant capable de fonctionner sur un ordinateur portable.

R1 est disponible sous licence MIT, permettant une utilisation commerciale sans restrictions. Selon DeepSeek, le modèle surpasse l’o1 d’OpenAI sur des benchmarks tels que AIME, MATH-500 et SWE-bench Vérifié. Ces benchmarks évaluent divers aspects de la performance de l’IA, y compris la résolution de problèmes mathématiques et les tâches de programmation.

Une limitation notable de R1 est son respect des exigences réglementaires chinoises. En tant que modèle chinois, il est soumis à l’évaluation par le régulateur de l’internet en Chine pour garantir sa conformité aux « valeurs sociales essentielles. » Par conséquent, R1 s’abstient de répondre à des questions sur des sujets sensibles tels que la place Tiananmen ou l’autonomie de Taiwan.

Malgré ces contraintes, l’accomplissement de DeepSeek a suscité un intérêt considérable. En après-midi de dimanche, l’assistant IA de DeepSeek est devenu l’application gratuite la plus téléchargée sur l’App Store d’Apple, dépassant même ChatGPT.

Le succès de DeepSeek a propulsé son créateur, Liang Wenfeng, sous les feux des projecteurs nationaux. Récemment, il était le seul représentant de l’industrie de l’IA invité à une réunion de haut niveau avec Li Qiang, le Premier ministre chinois et deuxième homme le plus puissant du pays.

Liang, entrepreneur chinois et gestionnaire de fonds spéculatifs, a commencé son ascension vers la renommée en IA dans le domaine de la finance quantitative. En 2015, Liang a fondé High-Flyer, un fonds spéculatif quantitatif qui est rapidement devenu l’un des « quatre grands » fonds privés quantitatifs de Chine. Sous la direction de Liang, High-Flyer a été le pionnier de l’intégration de stratégies basées sur l’IA dans l’investissement quantitatif, transitionnant vers une approche entièrement basée sur l’IA d’ici 2017.

La véritable incursion de Liang dans le développement de l’IA a commencé en 2021 lorsqu’il a commencé à acquérir des milliers de GPU NVIDIA pour ce qui était au départ perçu comme un projet annexe excentrique. Ce mouvement perspicace a posé les bases de DeepSeek, que Liang a fondée en 2023 avec l’ambitieux objectif de développer une IA de niveau humain.

Le parcours atypique de Liang s’est avéré être un atout unique dans le domaine de l’IA. L’expérience de son équipe en utilisant des puces NVIDIA pour le trading d’actions s’est bien traduite dans les défis posés par les restrictions à l’exportation américaines concernant les puces avancées pour la Chine. Cette adaptabilité a permis à DeepSeek d’innover face à un accès limité au hardware à la pointe de la technologie.