La startup chinoise DeepSeek continue de bouleverser le paysage mondial de l’intelligence artificielle avec sa dernière innovation en matière d’optimisation de modèles. Le 29 mai, l’entreprise a révélé qu’une variante de son modèle de raisonnement R1-0528 récemment mis à jour avait été utilisée pour améliorer le modèle Qwen 3 8B Base d’Alibaba grâce à un procédé appelé distillation.
Cette technique de distillation, qui consiste à transférer les connaissances d’un modèle sophistiqué vers un modèle plus compact, a permis à DeepSeek d’intégrer les processus de raisonnement de son modèle R1-0528 dans le système d’Alibaba. Selon l’annonce de DeepSeek, ce procédé a permis d’obtenir des gains de performance supérieurs à 10 % pour le modèle Qwen 3.
« Nous pensons que la chaîne de raisonnement de DeepSeek-R1-0528 revêtira une importance majeure tant pour la recherche académique que pour les applications concrètes », a déclaré DeepSeek dans son communiqué. L’entreprise a déjà publié plusieurs modèles distillés basés sur les architectures Qwen et Llama de Meta, avec des tailles allant de 1,5 à 70 milliards de paramètres.
L’approche de DeepSeek en matière de développement de l’IA suscite une attention considérable depuis janvier, lorsque son modèle R1 a affiché des performances comparables à celles d’OpenAI et de Google, mais pour une fraction du coût informatique. Le succès de l’entreprise remet en question l’idée selon laquelle l’IA de pointe nécessite d’énormes ressources informatiques et des investissements massifs.
Malgré les restrictions américaines à l’exportation de puces IA avancées, DeepSeek a optimisé ses modèles pour fonctionner efficacement sur du matériel moins puissant et autorisé à l’export. Cette stratégie a contraint les concurrents à repenser leur dépendance au matériel et a influencé la dynamique du marché dans le secteur de l’IA.
La dernière mise à jour R1-0528 rapproche le modèle de DeepSeek des performances des modèles de raisonnement o3 d’OpenAI et Gemini 2.5 Pro de Google, avec des avancées notables en profondeur de raisonnement, capacités d’inférence et réduction des hallucinations. L’innovation continue de l’entreprise et son approche open source redéfinissent les attentes en matière de développement et d’efficacité de déploiement des modèles d’IA.