Google a annoncé l’extension de sa fonctionnalité innovante de « budgets de réflexion » à Gemini 2.5 Pro, son modèle d’IA de raisonnement le plus avancé, après une première mise en œuvre réussie sur Gemini 2.5 Flash plus tôt cette année.
La fonctionnalité de budgets de réflexion représente une avancée majeure dans la gestion des coûts liés à l’IA, permettant aux développeurs de contrôler précisément la puissance de calcul allouée au raisonnement sur des problèmes complexes. Grâce à cette capacité, les utilisateurs peuvent spécifier le nombre maximum de jetons qu’un modèle utilise pour son raisonnement interne avant de générer une réponse, ou même désactiver complètement les capacités de réflexion pour des tâches plus simples.
« Nous avons lancé 2.5 Flash avec les budgets de réflexion afin de donner aux développeurs plus de contrôle sur les coûts, en équilibrant latence et qualité. Et nous étendons cette capacité à 2.5 Pro », a déclaré Google dans son annonce. L’entreprise a confirmé que Gemini 2.5 Pro avec budgets sera disponible de manière générale pour une utilisation en production stable dans les semaines à venir.
Ce développement répond à une tension fondamentale sur le marché actuel de l’IA, où des capacités de raisonnement plus sophistiquées augmentent généralement la latence et les coûts. Par exemple, avec Gemini 2.5 Flash, l’activation du raisonnement multiplie presque par six le coût de sortie — passant de 0,60 $ à 3,50 $ par million de jetons. En mettant en place des budgets de réflexion, les entreprises peuvent optimiser leurs déploiements d’IA en fonction des cas d’usage spécifiques, en activant le raisonnement uniquement lorsque cela est nécessaire.
Cette fonctionnalité est particulièrement précieuse pour les clients entreprises qui doivent gérer soigneusement les coûts de déploiement de l’IA tout en accédant à des capacités avancées. Pour des requêtes simples comme la traduction de texte ou la recherche d’informations de base, la réflexion peut être désactivée pour une efficacité maximale des coûts. Pour les tâches complexes nécessitant un raisonnement en plusieurs étapes, comme la résolution de problèmes mathématiques ou l’analyse nuancée, la fonction de réflexion peut être activée et ajustée finement.
À mesure que l’IA s’intègre de plus en plus dans les processus métier, l’approche de Google avec un raisonnement personnalisable reflète un marché en pleine maturité, où l’optimisation des coûts et le réglage des performances deviennent aussi importants que les capacités brutes — marquant une nouvelle phase dans la commercialisation des technologies d’IA générative.