Google a lancé une version préliminaire de Gemini 2.5 Flash, la dernière itération de son modèle d’IA efficace conçu pour allier performance, rapidité et rentabilité.
S’appuyant sur les bases de Gemini 2.0 Flash, le nouveau modèle 2.5 Flash offre une amélioration majeure des capacités de raisonnement tout en conservant sa réputation d’efficacité. Google le décrit comme « une avancée majeure en matière de raisonnement, tout en continuant à privilégier la rapidité et le coût ».
La fonctionnalité phare de Gemini 2.5 Flash est son système de raisonnement hybride. Il s’agit du « premier modèle de raisonnement entièrement hybride de Google, permettant aux développeurs d’activer ou de désactiver la réflexion et de définir des budgets de réflexion pour optimiser l’équilibre entre qualité, coût et latence ». Cette approche innovante offre aux développeurs un contrôle inédit sur la manière dont le modèle traite les tâches complexes.
Concrètement, cela signifie que les développeurs peuvent définir un « budget de réflexion » qui contrôle le niveau de raisonnement effectué par le modèle. Ils peuvent ajuster « le nombre de jetons qu’un modèle peut générer pendant la réflexion » de 0 à 24 576 jetons à l’aide d’un curseur dans Google AI Studio et Vertex AI, ou via un paramètre d’API. Lorsque le budget de réflexion est fixé à zéro, le modèle retrouve le coût et la latence de Gemini 2.0 Flash.
La tarification reflète cette flexibilité, avec des jetons d’entrée à 15 centimes le million et des jetons de sortie à 60 centimes le million sans raisonnement. Avec les capacités de réflexion activées, le coût passe à 3,50 $ le million de jetons.
Les tests de performance sont impressionnants. Gemini 2.5 Flash « obtient d’excellents résultats sur les Hard Prompts dans LMArena, juste derrière 2.5 Pro » et « affiche des métriques comparables à celles des autres modèles leaders pour une fraction du coût et de la taille », continuant « d’être le modèle au meilleur rapport qualité-prix ».
Google décrit 2.5 Flash comme son « modèle de référence le plus efficace, conçu pour la rapidité et les faibles coûts », précisant qu’il « s’est amélioré sur les principaux benchmarks de raisonnement, multimodalité, code et contexte long tout en devenant encore plus efficace, utilisant 20 à 30 % de jetons en moins » lors des évaluations.
Le nouveau modèle est actuellement disponible en mode préversion via plusieurs canaux. Il est en cours de déploiement « dans Google AI Studio (développeurs), Vertex AI (entreprises) et l’application Gemini (tout public) ». Selon les annonces de Google lors de l’I/O 2025, la version mise à jour sera « généralement disponible dans Google AI Studio pour les développeurs et dans Vertex AI pour les entreprises début juin », Gemini 2.5 Pro arrivant « peu après ».
Alors que Google continue d’étendre ses capacités en intelligence artificielle, Gemini 2.5 Flash représente une avancée majeure pour rendre le raisonnement avancé plus accessible et économique, tant pour les développeurs que pour les utilisateurs.