menu
close

DeepSeek améliore son modèle d’IA R1 et défie les géants technologiques occidentaux

La startup chinoise DeepSeek a publié une mise à jour de son modèle de raisonnement R1, qui avait propulsé l’entreprise sur le devant de la scène mondiale plus tôt cette année. La version R1-0528, bien que qualifiée de « mineure » par la société, affiche des progrès notables en programmation, en profondeur de raisonnement et en rédaction. Le modèle conserve l’approche économique de DeepSeek tout en rivalisant avec les performances des modèles d’OpenAI et de Google.
DeepSeek améliore son modèle d’IA R1 et défie les géants technologiques occidentaux

DeepSeek, la startup chinoise d’intelligence artificielle qui avait ébranlé les marchés technologiques en janvier avec son modèle révolutionnaire R1, a discrètement déployé une mise à jour majeure de son système phare.

La nouvelle version, baptisée DeepSeek-R1-0528, a été lancée le 28 mai via une brève annonce sur le groupe WeChat de l’entreprise. Bien que DeepSeek la présente comme une « mise à niveau d’essai mineure », les premiers tests révèlent des améliorations substantielles dans de nombreux domaines.

D’après le classement LiveCodeBench, le modèle mis à jour occupe désormais la quatrième place en matière de capacités de programmation, avec un score Pass@1 de 73,1, juste derrière les modèles O3 et O4-Mini d’OpenAI. Il s’agit d’un bond en avant pour un modèle open source, surtout développé avec des ressources bien moindres que ses homologues occidentaux.

Les spécifications techniques indiquent que le R1-0528 conserve l’architecture Mixture-of-Experts (MoE) de son prédécesseur, avec environ 685 milliards de paramètres au total, dont seulement 37 milliards sont activés lors de l’inférence. Le modèle prend désormais en charge une fenêtre de contexte élargie jusqu’à 128 000 tokens, lui permettant de traiter des documents et des bases de code bien plus volumineux.

Les retours des utilisateurs font état d’une meilleure profondeur de raisonnement, d’une qualité rédactionnelle accrue et de capacités de résolution de problèmes renforcées. Les développeurs rapportent que le modèle peut désormais mener des sessions de raisonnement prolongées de 30 à 60 minutes pour des tâches complexes, à l’instar des modèles de Google. La mise à jour corrige également certains défauts antérieurs dans la génération de texte, produisant des contenus plus naturels et mieux formatés.

L’innovation continue de DeepSeek remet en question l’idée selon laquelle le passage à l’échelle de l’IA nécessiterait d’immenses moyens informatiques et financiers. Le succès de la société avec ses modèles open source et économiques a déjà poussé les géants technologiques à réagir : OpenAI a baissé ses prix et Google a introduit des offres d’accès à tarif réduit. Parallèlement, des concurrents chinois comme Alibaba et Tencent ont lancé leurs propres modèles, affirmant surpasser les capacités de DeepSeek.

La mise à jour R1-0528 est disponible sur Hugging Face sous licence MIT, autorisant l’utilisation commerciale et les modifications. Les observateurs du secteur s’attendent à ce que DeepSeek publie dans les prochains mois son modèle R2, encore plus complet, qui pourrait bouleverser davantage le paysage de l’IA.

Source:

Latest News