menu
close

DeepSeek améliore son modèle d’IA R1 et défie les géants technologiques occidentaux

La jeune pousse chinoise DeepSeek a publié une mise à jour de son modèle de raisonnement R1, qui avait propulsé l’entreprise sur la scène mondiale plus tôt cette année. Bien que la mise à jour R1-0528 soit qualifiée de « mineure » par la société, elle apporte des améliorations notables en programmation, en profondeur de raisonnement et en rédaction. Le modèle mis à jour conserve l’approche économique de DeepSeek en matière de développement d’IA, tout en rivalisant avec les performances des modèles d’OpenAI et de Google.
DeepSeek améliore son modèle d’IA R1 et défie les géants technologiques occidentaux

DeepSeek, la startup chinoise en intelligence artificielle qui avait fait chuter les actions technologiques en janvier avec son modèle révolutionnaire R1, a discrètement lancé une mise à jour importante de son système d’IA phare.

La nouvelle version, baptisée DeepSeek-R1-0528, a été publiée le 28 mai avec peu de publicité, via une brève annonce dans le groupe WeChat de l’entreprise. Malgré la description de DeepSeek comme une « mise à niveau d’essai mineure », les premiers tests révèlent des progrès notables dans plusieurs domaines.

Selon le classement LiveCodeBench, le modèle mis à jour occupe désormais la quatrième place pour ses capacités de programmation, avec un score Pass@1 de 73,1, juste derrière les modèles O3 et O4-Mini d’OpenAI. Il s’agit d’un bond majeur pour un modèle open source, surtout développé avec beaucoup moins de ressources que ses homologues occidentaux.

Les spécifications techniques indiquent que le R1-0528 conserve l’architecture Mixture-of-Experts (MoE) de son prédécesseur, avec environ 685 milliards de paramètres au total, bien qu’environ 37 milliards seulement soient actifs lors de l’inférence. Le modèle prend maintenant en charge une fenêtre de contexte élargie jusqu’à 128K jetons, ce qui lui permet de traiter des documents et des bases de code beaucoup plus volumineux.

Les commentaires des utilisateurs soulignent des améliorations en profondeur de raisonnement, en qualité rédactionnelle et en résolution de problèmes. Les développeurs rapportent que le modèle peut désormais soutenir des sessions de raisonnement prolongées de 30 à 60 minutes pour des tâches complexes, à l’image des modèles de Google. La mise à jour corrige également certains défauts antérieurs dans la génération de texte, produisant un contenu plus naturel et mieux formaté.

L’innovation continue de DeepSeek remet en question l’idée que le passage à l’échelle de l’IA nécessite d’énormes ressources informatiques et des investissements massifs. Le succès de l’entreprise avec des modèles open source et économiques a déjà forcé les géants technologiques à réagir, OpenAI ayant réduit ses prix et Google ayant introduit des niveaux d’accès à prix réduit. Pendant ce temps, des concurrents chinois comme Alibaba et Tencent ont lancé leurs propres modèles, affirmant surpasser les capacités de DeepSeek.

La mise à jour R1-0528 est disponible sur Hugging Face sous licence MIT, permettant une utilisation commerciale et des modifications. Les observateurs de l’industrie s’attendent à ce que DeepSeek lance son modèle R2, plus complet, dans les prochains mois, ce qui pourrait bouleverser davantage le paysage de l’IA.

Source:

Latest News