Google a officiellement lancé Gemini 2.5 Flash-Lite, marquant une avancée importante pour rendre l’IA puissante plus accessible et efficace, tant pour les développeurs que pour les entreprises.
Le nouveau modèle, décrit comme le « modèle 2.5 le plus rapide et le plus économique de Google à ce jour », est optimisé pour les opérations à grand volume et sensibles à la latence. Flash-Lite arrive sur le marché avec la latence et le coût les plus bas de la famille des modèles 2.5, conçu comme une mise à niveau économique par rapport aux modèles Flash 1.5 et 2.0 précédents. Il offre de meilleures performances dans la plupart des évaluations, avec un temps réduit pour générer le premier jeton et un débit de jetons par seconde plus élevé, ce qui le rend idéal pour des tâches à haut débit comme la classification ou la synthèse à grande échelle.
En tant que modèle de raisonnement, Flash-Lite permet un contrôle dynamique du budget de réflexion via un paramètre d’API. Contrairement aux autres modèles Gemini 2.5 où la réflexion est activée par défaut, Flash-Lite optimise les coûts et la vitesse en gardant cette fonction désactivée, sauf si elle est explicitement activée. Malgré cette optimisation, il prend tout de même en charge tous les outils natifs, incluant l’ancrage à la recherche Google, l’exécution de code, le contexte URL et l’appel de fonctions.
Les tests de performance démontrent que Flash-Lite est 1,5 fois plus rapide que Gemini 2.0 Flash à un coût inférieur, ce qui le rend particulièrement adapté aux tâches telles que la classification, la traduction, le routage intelligent et d’autres opérations à grande échelle où le coût est un facteur clé. Alors que d’autres modèles utilisent par défaut des outils de raisonnement plus puissants (et plus coûteux) pour répondre aux questions, Flash-Lite donne aux développeurs le contrôle sur ce processus. Les utilisateurs peuvent activer ou désactiver la capacité de réflexion selon leurs besoins spécifiques, et malgré son efficacité en termes de coûts, Flash-Lite n’est pas limité dans ce qu’il peut accomplir.
L’aperçu de Gemini 2.5 Flash-Lite est maintenant disponible dans Google AI Studio et Vertex AI, aux côtés des versions stables de 2.5 Flash et Pro. Les modèles 2.5 Flash et Pro sont aussi accessibles dans l’application Gemini, et Google a intégré des versions personnalisées de 2.5 Flash-Lite et Flash à la recherche.
Cette expansion stratégique de la famille de modèles Gemini démontre l’engagement de Google à démocratiser l’IA en offrant des options qui équilibrent performance, coût et rapidité selon les cas d’utilisation, allant des tâches de raisonnement complexes au traitement de données à grand volume.