La startup chinoise DeepSeek continue de bouleverser le paysage mondial de l’intelligence artificielle avec sa dernière innovation en optimisation de modèles. Le 29 mai, l’entreprise a révélé qu’une variante de son modèle de raisonnement R1-0528 récemment mis à jour avait servi à améliorer le modèle Qwen 3 8B Base d’Alibaba via un procédé appelé distillation.
Cette technique de distillation, qui consiste à transférer les connaissances d’un modèle sophistiqué vers un modèle plus compact, a permis à DeepSeek d’intégrer ses processus de raisonnement issus du modèle R1-0528 au système d’Alibaba. Selon l’annonce de DeepSeek, cette démarche a permis d’obtenir des gains de performance de plus de 10 % pour le modèle Qwen 3.
« Nous croyons que la chaîne de raisonnement de DeepSeek-R1-0528 revêtira une importance majeure tant pour la recherche académique que pour les applications concrètes », a indiqué DeepSeek dans son communiqué. L’entreprise a déjà publié plusieurs modèles distillés basés sur les architectures Qwen et Llama de Meta, avec des tailles allant de 1,5 à 70 milliards de paramètres.
L’approche de DeepSeek en matière de développement de l’IA attire l’attention depuis janvier, alors que son modèle R1 a démontré des performances comparables à celles d’OpenAI et Google, mais à une fraction du coût informatique. Le succès de l’entreprise remet en question l’idée reçue selon laquelle l’IA de pointe nécessite d’énormes ressources informatiques et des investissements massifs.
Malgré les restrictions américaines sur l’exportation de puces d’IA avancées, DeepSeek a optimisé ses modèles pour fonctionner efficacement sur du matériel moins puissant, approuvé à l’exportation. Cette stratégie a poussé les concurrents à repenser leur dépendance au matériel et a influencé la dynamique du marché de l’IA.
La dernière mise à jour R1-0528 rapproche le modèle de DeepSeek des performances des modèles de raisonnement o3 d’OpenAI et Gemini 2.5 Pro de Google, avec des avancées notables en profondeur de raisonnement, en capacités d’inférence et en réduction des hallucinations. L’innovation continue de l’entreprise et son approche open source redéfinissent les attentes en matière de développement et de déploiement efficace des modèles d’IA.