menu
close

Anthropic dévoile Claude 4 : de nouveaux standards pour le codage par IA

Anthropic a récemment lancé Claude Opus 4 et Claude Sonnet 4, établissant de nouvelles références en matière de codage et de raisonnement par intelligence artificielle. Claude Opus 4 domine les benchmarks du secteur avec 72,5 % sur SWE-bench, tandis que Sonnet 4 offre des performances supérieures à un prix plus accessible. Les deux modèles proposent un raisonnement hybride, alternant entre réponses instantanées et réflexion approfondie avec intégration d’outils, ce qui améliore considérablement leur capacité à gérer des tâches complexes et multi-étapes.
Anthropic dévoile Claude 4 : de nouveaux standards pour le codage par IA

Anthropic a officiellement lancé ses modèles d’IA de nouvelle génération, Claude Opus 4 et Claude Sonnet 4, marquant une avancée majeure dans les capacités de l’intelligence artificielle au 22 mai 2025.

Claude Opus 4, présenté comme le modèle phare d’Anthropic, a été qualifié par l’entreprise de « meilleur modèle de codage au monde ». Il domine le benchmark SWE-bench avec un score de 72,5 % et Terminal-bench à 43,2 %, offrant des performances soutenues sur des tâches longues nécessitant un effort concentré sur des milliers d’étapes. Le modèle peut travailler en continu pendant plusieurs heures, surpassant nettement les précédents modèles Sonnet et élargissant le champ d’action des agents IA.

Claude Sonnet 4 représente une amélioration significative par rapport à Claude Sonnet 3.7, offrant un codage et un raisonnement supérieurs tout en répondant de manière plus précise aux instructions. Fait intéressant, il atteint 72,7 % sur SWE-bench et, grâce à une exécution parallèle lors des tests, atteint 80,2 % de précision — offrant ainsi de meilleures performances en codage que le modèle Opus 4 plus volumineux. Anthropic le décrit comme alliant « performance et efficacité pour des cas d’usage internes et externes, avec une meilleure contrôlabilité pour un pilotage accru des implémentations ».

Les deux modèles introduisent de nouvelles capacités puissantes, notamment la réflexion prolongée avec utilisation d’outils, permettant à Claude d’alterner entre raisonnement et utilisation d’outils pour améliorer ses réponses. Ils peuvent utiliser des outils en parallèle, suivre les instructions avec plus de précision et — lorsqu’ils ont accès à des fichiers locaux fournis par les développeurs — démontrent des capacités de mémoire nettement améliorées, extrayant et sauvegardant des faits clés pour maintenir la continuité et construire un savoir tacite au fil du temps.

Les modèles peuvent extraire et enregistrer des faits dans leur « mémoire » afin de traiter les tâches de manière plus fiable, construisant ce qu’Anthropic décrit comme un « savoir tacite » au fil du temps. Opus 4 et Sonnet 4 sont tous deux des modèles « hybrides » capables de réponses quasi instantanées et de réflexion approfondie pour un raisonnement plus poussé. En mode raisonnement activé, ils peuvent prendre plus de temps pour examiner les solutions possibles avant de répondre, présentant un résumé « convivial » de leur processus de réflexion.

Les deux modèles sont disponibles via l’API Anthropic, Amazon Bedrock et Vertex AI de Google Cloud. Les tarifs restent identiques à ceux des précédents modèles Opus et Sonnet : Opus 4 à 15 $/75 $ par million de tokens (entrée/sortie) et Sonnet 4 à 3 $/15 $.

Pour les utilisateurs individuels, Anthropic propose des abonnements par paliers. L’offre gratuite donne accès à Claude Sonnet 4 avec des limites d’utilisation quotidienne, tandis que l’offre Pro (20 $/mois ou 200 $/an) permet environ cinq fois plus d’utilisation que l’offre gratuite, l’accès à Claude 4 Sonnet et Claude 4 Opus via un sélecteur de modèle, ainsi qu’un accès prioritaire lors des périodes de forte affluence.

Le lancement de Claude 4 marque une nouvelle ère pour les grands modèles de langage. Ces offres représentent un bond en avant pour les applications en entreprise, en recherche et en création, avec une fenêtre de contexte de 200 000 tokens, des benchmarks de codage et de raisonnement de référence, et un cadre de sécurité robuste conçu pour des scénarios réels complexes, à forts enjeux et en constante évolution.

Source:

Latest News