menu
close

DeepSeek renforce l’IA d’Alibaba grâce à la distillation des connaissances

La startup chinoise DeepSeek a annoncé le 29 mai 2025 avoir amélioré le modèle Qwen 3 8B Base d’Alibaba via un processus de distillation des connaissances utilisant sa version actualisée du modèle de raisonnement R1-0528. Cette technique a permis de transférer les capacités avancées de raisonnement de DeepSeek vers le modèle d’Alibaba, entraînant des gains de performance supérieurs à 10 %. Cette collaboration illustre l’influence croissante de DeepSeek dans le secteur de l’IA et son engagement en faveur de l’optimisation des modèles par des approches innovantes.
DeepSeek renforce l’IA d’Alibaba grâce à la distillation des connaissances

La startup chinoise DeepSeek continue de bouleverser le paysage mondial de l’intelligence artificielle avec sa dernière innovation en matière d’optimisation de modèles. Le 29 mai, l’entreprise a révélé qu’une variante de son modèle de raisonnement R1-0528 récemment mis à jour avait été utilisée pour améliorer le modèle Qwen 3 8B Base d’Alibaba grâce à un procédé appelé distillation.

Cette technique de distillation, qui consiste à transférer les connaissances d’un modèle sophistiqué vers un modèle plus compact, a permis à DeepSeek d’intégrer les processus de raisonnement de son modèle R1-0528 dans le système d’Alibaba. Selon l’annonce de DeepSeek, ce procédé a permis d’obtenir des gains de performance supérieurs à 10 % pour le modèle Qwen 3.

« Nous pensons que la chaîne de raisonnement de DeepSeek-R1-0528 revêtira une importance majeure tant pour la recherche académique que pour les applications concrètes », a déclaré DeepSeek dans son communiqué. L’entreprise a déjà publié plusieurs modèles distillés basés sur les architectures Qwen et Llama de Meta, avec des tailles allant de 1,5 à 70 milliards de paramètres.

L’approche de DeepSeek en matière de développement de l’IA suscite une attention considérable depuis janvier, lorsque son modèle R1 a affiché des performances comparables à celles d’OpenAI et de Google, mais pour une fraction du coût informatique. Le succès de l’entreprise remet en question l’idée selon laquelle l’IA de pointe nécessite d’énormes ressources informatiques et des investissements massifs.

Malgré les restrictions américaines à l’exportation de puces IA avancées, DeepSeek a optimisé ses modèles pour fonctionner efficacement sur du matériel moins puissant et autorisé à l’export. Cette stratégie a contraint les concurrents à repenser leur dépendance au matériel et a influencé la dynamique du marché dans le secteur de l’IA.

La dernière mise à jour R1-0528 rapproche le modèle de DeepSeek des performances des modèles de raisonnement o3 d’OpenAI et Gemini 2.5 Pro de Google, avec des avancées notables en profondeur de raisonnement, capacités d’inférence et réduction des hallucinations. L’innovation continue de l’entreprise et son approche open source redéfinissent les attentes en matière de développement et d’efficacité de déploiement des modèles d’IA.

Source:

Latest News