Google hat bekannt gegeben, dass Gemini 2.5 Flash und 2.5 Pro nun stabil und allgemein verfügbar sind. Damit erhalten Unternehmen die Zuverlässigkeit und Skalierbarkeit, die sie benötigen, um fortschrittliche KI-Funktionen mit Vertrauen in geschäftskritische Anwendungen zu integrieren. Parallel dazu stellt das Unternehmen Gemini 2.5 Flash-Lite als Vorschau vor – das bislang kosteneffizienteste und schnellste Modell der 2.5-Reihe.
Gemini 2.5 Flash-Lite ist ein Reasoning-Modell, das eine dynamische Steuerung des "Denkbudgets" über einen API-Parameter ermöglicht. Im Gegensatz zu anderen Modellen der 2.5-Familie ist Flash-Lite auf Kosten und Geschwindigkeit optimiert und hat "Denken" standardmäßig deaktiviert. Trotz dieser Optimierungen unterstützt es alle nativen Tools, darunter Grounding mit Google Search, Codeausführung und URL-Kontext sowie Funktionsaufrufe.
Flash-Lite bietet eine höhere Leistung als das vorherige Flash-Lite-Modell und ist 1,5-mal schneller als 2.0 Flash – bei geringeren Kosten. Es ist speziell für Aufgaben mit hohem Volumen und niedriger Latenz wie Übersetzung, Klassifizierung, intelligentes Routing und andere kostenkritische, großskalige Anwendungen konzipiert. Das Modell erzielt deutlich bessere Ergebnisse als 2.0 Flash-Lite bei Benchmarks zu Programmierung, Mathematik, Wissenschaft, Reasoning und multimodalen Aufgaben und eignet sich damit ideal für Aufgaben mit hohem Durchsatz.
Wie andere Modelle der Gemini 2.5-Familie verfügt Flash-Lite über hilfreiche Funktionen, darunter die Möglichkeit, das "Denken" mit unterschiedlichen Budgets zu aktivieren, die Anbindung an Tools wie Grounding mit Google Search und Codeausführung, multimodale Eingaben sowie einen Kontextumfang von einer Million Tokens. Um aktuelle und faktisch korrekte Antworten zu gewährleisten, kann Flash-Lite Google Search als integriertes Tool nutzen und intelligent entscheiden, wann die Suche zur Wissensanreicherung eingesetzt wird.
Über die Einführung von Flash-Lite hinaus hat Google bekannt gegeben, dass Gemini 2.5 Pro zum weltweit führenden Modell auf den Bestenlisten von WebDev Arena und LMArena aufgestiegen ist. Mit einem ELO-Score von 1415 auf der WebDev Arena Coding-Bestenliste führt es alle Leaderboards in LMArena an, die menschliche Präferenzen in mehreren Dimensionen misst. Darüber hinaus hat Google LearnLM direkt in Gemini 2.5 integriert und macht es damit zum weltweit führenden Modell für Lernen. Laut dem jüngsten Bericht von Google übertraf Gemini 2.5 Pro die Konkurrenz in jeder Kategorie der Lernwissenschaften; Lehrkräfte und Pädagogik-Expert:innen bevorzugten es in einer Vielzahl von Lernszenarien gegenüber anderen Angeboten.
Gemini 2.5 Flash-Lite ist ab sofort als Vorschau in Google AI Studio und Vertex AI verfügbar, zusammen mit den stabilen Versionen von 2.5 Flash und Pro. Entwickler:innen können auf das Modell (gemini-2.5-flash-lite-preview-06-17) über das Google Gen AI SDK zugreifen, das eine einheitliche Schnittstelle zur Gemini 2.5-Modellfamilie über die Gemini Developer API und die Vertex AI Gemini API bietet.