Google hat offiziell Gemini 2.5 Flash-Lite vorgestellt und damit einen bedeutenden Schritt gemacht, leistungsstarke KI für Entwickler und Unternehmen noch zugänglicher und effizienter zu gestalten.
Das neue Modell, von Google als „kosteneffizientestes und schnellstes 2.5-Modell bisher“ bezeichnet, ist für hochvolumige, latenzkritische Anwendungen optimiert. Flash-Lite kommt mit der niedrigsten Latenz und den geringsten Kosten innerhalb der 2.5-Modellfamilie auf den Markt und ist als kostengünstiges Upgrade gegenüber den bisherigen 1.5- und 2.0-Flash-Modellen konzipiert. Es bietet in den meisten Benchmarks eine bessere Performance, verkürzt die Zeit bis zum ersten Token und erreicht eine höhere Decodiergeschwindigkeit (Tokens pro Sekunde). Damit eignet es sich ideal für Aufgaben mit hohem Durchsatz wie Klassifizierung oder großflächige Zusammenfassungen.
Als Reasoning-Modell ermöglicht Flash-Lite eine dynamische Steuerung des „Denkbudgets“ über einen API-Parameter. Im Gegensatz zu anderen Gemini 2.5-Modellen, bei denen das Reasoning standardmäßig aktiviert ist, optimiert Flash-Lite Kosten und Geschwindigkeit, indem das Reasoning nur bei Bedarf eingeschaltet wird. Trotz dieser Optimierung unterstützt das Modell weiterhin alle nativen Tools, darunter Google Search Grounding, Codeausführung, URL-Kontext und Funktionsaufrufe.
Leistungstests zeigen, dass Flash-Lite 1,5-mal schneller ist als Gemini 2.0 Flash – und das bei geringeren Kosten. Damit eignet es sich besonders für Aufgaben wie Klassifizierung, Übersetzung, intelligentes Routing und andere kostenkritische Anwendungen im großen Maßstab. Während andere Modelle standardmäßig auf leistungsfähigere (und teurere) Reasoning-Tools zurückgreifen, gibt Flash-Lite Entwicklern die Kontrolle über diesen Prozess. Nutzer können die Denkfähigkeit je nach Bedarf aktivieren oder deaktivieren. Trotz seiner Kosteneffizienz ist Flash-Lite in seinen Möglichkeiten nicht eingeschränkt.
Die Vorschau von Gemini 2.5 Flash-Lite ist ab sofort in Google AI Studio und Vertex AI verfügbar, zusammen mit den stabilen Versionen von 2.5 Flash und Pro. Beide Modelle, 2.5 Flash und Pro, sind zudem in der Gemini-App zugänglich. Außerdem hat Google maßgeschneiderte Versionen von 2.5 Flash-Lite und Flash in die Suche integriert.
Diese strategische Erweiterung der Gemini-Modellfamilie unterstreicht Googles Engagement, KI zu demokratisieren, indem Optionen bereitgestellt werden, die Leistung, Kosten und Geschwindigkeit für unterschiedliche Anwendungsfälle – von komplexen Reasoning-Aufgaben bis hin zur Datenverarbeitung im großen Stil – optimal ausbalancieren.