DeepSeek renforce l’IA d’Alibaba grâce à la distillation des connaissances

La startup chinoise DeepSeek a annoncé le 29 mai 2025 avoir amélioré le modèle Qwen 3 8B Base d’Alibaba via un processus de distillation des connaissances utilisant sa version actualisée du modèle de raisonnement R1-0528. Cette technique a permis de transférer les capacités avancées de raisonnement de DeepSeek vers le modèle d’Alibaba, entraînant des gains de performance supérieurs à 10 %. Cette collaboration illustre l’influence croissante de DeepSeek dans le secteur de l’IA et son engagement en faveur de l’optimisation des modèles par des approches innovantes.

La startup chinoise DeepSeek continue de bouleverser le paysage mondial de l’intelligence artificielle avec sa dernière innovation en matière d’optimisation de modèles. Le 29 mai, l’entreprise a révélé qu’une variante de son modèle de raisonnement R1-0528 récemment mis à jour avait été utilisée pour améliorer le modèle Qwen 3 8B Base d’Alibaba grâce à un procédé appelé distillation.

Cette technique de distillation, qui consiste à transférer les connaissances d’un modèle sophistiqué vers un modèle plus compact, a permis à DeepSeek d’intégrer les processus de raisonnement de son modèle R1-0528 dans le système d’Alibaba. Selon l’annonce de DeepSeek, ce procédé a permis d’obtenir des gains de performance supérieurs à 10 % pour le modèle Qwen 3.

« Nous pensons que la chaîne de raisonnement de DeepSeek-R1-0528 revêtira une importance majeure tant pour la recherche académique que pour les applications concrètes », a déclaré DeepSeek dans son communiqué. L’entreprise a déjà publié plusieurs modèles distillés basés sur les architectures Qwen et Llama de Meta, avec des tailles allant de 1,5 à 70 milliards de paramètres.

L’approche de DeepSeek en matière de développement de l’IA suscite une attention considérable depuis janvier, lorsque son modèle R1 a affiché des performances comparables à celles d’OpenAI et de Google, mais pour une fraction du coût informatique. Le succès de l’entreprise remet en question l’idée selon laquelle l’IA de pointe nécessite d’énormes ressources informatiques et des investissements massifs.

Malgré les restrictions américaines à l’exportation de puces IA avancées, DeepSeek a optimisé ses modèles pour fonctionner efficacement sur du matériel moins puissant et autorisé à l’export. Cette stratégie a contraint les concurrents à repenser leur dépendance au matériel et a influencé la dynamique du marché dans le secteur de l’IA.

La dernière mise à jour R1-0528 rapproche le modèle de DeepSeek des performances des modèles de raisonnement o3 d’OpenAI et Gemini 2.5 Pro de Google, avec des avancées notables en profondeur de raisonnement, capacités d’inférence et réduction des hallucinations. L’innovation continue de l’entreprise et son approche open source redéfinissent les attentes en matière de développement et d’efficacité de déploiement des modèles d’IA.

Source:

DeepSeek renforce l’IA d’Alibaba grâce à la distillation des connaissances

Latest News

DeepSeek améliore son modèle d’IA R1 et défie les géants technologiques occidentaux

Google Beam : l’appel vidéo 3D révolutionnaire arrive en 2025

Google dévoile Gemini 2.5 Deep Think lors de l'I/O 2025

AMD acquiert Enosemi pour faire progresser la photonique sur silicium dédiée à l’IA

Warren exige que le Pentagone garantisse la concurrence dans les contrats d’IA face à l’influence croissante de Musk

Le robot ATMO de Caltech se transforme en plein vol pour des opérations terrestres sans interruption

Google dévoile Project Astra et le Mode IA lors de l'I/O 2025

Les systèmes d’IA surpassent les humains aux tests d’intelligence émotionnelle

Le Doubao AI de ByteDance propose désormais une assistance vidéo en temps réel

OnePlus abandonne le Slider d’Alerte au profit de la touche Plus alimentée par l’IA

DeepSeek renforce l’IA d’Alibaba grâce à la distillation des connaissances

Related Articles

DeepSeek améliore son modèle d’IA R1 et défie les géants technologiques occidentaux

Google dévoile Gemini 2.5 Deep Think lors de l'I/O 2025

AMD acquiert Enosemi pour faire progresser la photonique sur silicium dédiée à l’IA

Warren exige que le Pentagone garantisse la concurrence dans les contrats d’IA face à l’influence croissante de Musk

Google dévoile Project Astra et le Mode IA lors de l'I/O 2025

Latest News

DeepSeek améliore son modèle d’IA R1 et défie les géants technologiques occidentaux

Google Beam : l’appel vidéo 3D révolutionnaire arrive en 2025

Google dévoile Gemini 2.5 Deep Think lors de l'I/O 2025

AMD acquiert Enosemi pour faire progresser la photonique sur silicium dédiée à l’IA

Warren exige que le Pentagone garantisse la concurrence dans les contrats d’IA face à l’influence croissante de Musk

Le robot ATMO de Caltech se transforme en plein vol pour des opérations terrestres sans interruption

Google dévoile Project Astra et le Mode IA lors de l'I/O 2025

Les systèmes d’IA surpassent les humains aux tests d’intelligence émotionnelle

Le Doubao AI de ByteDance propose désormais une assistance vidéo en temps réel

OnePlus abandonne le Slider d’Alerte au profit de la touche Plus alimentée par l’IA