Google har lanserat en förhandsversion av Gemini 2.5 Flash, den senaste versionen av företagets effektiva AI-modell som är utformad för att balansera prestanda med hastighet och kostnadseffektivitet.
Med utgångspunkt i Gemini 2.0 Flash erbjuder nya 2.5 Flash-modellen en betydande uppgradering av resonemangsförmågan, samtidigt som den behåller sitt rykte om effektivitet. Google beskriver den som "en stor uppgradering av resonemangsförmågan, samtidigt som hastighet och kostnad fortfarande prioriteras."
Den mest framträdande egenskapen hos Gemini 2.5 Flash är dess hybridresonemangssystem. Det är Googles "första helt hybrida resonemangsmodell, som gör det möjligt för utvecklare att slå på eller av tänkandet, samt sätta tankebudgetar för att optimera balansen mellan kvalitet, kostnad och latens." Detta innovativa tillvägagångssätt ger utvecklare en aldrig tidigare skådad kontroll över hur modellen hanterar komplexa uppgifter.
I praktiken innebär detta att utvecklare kan ange en "tankebudget" som styr hur mycket resonemang modellen utför. De kan justera "antalet tokens som modellen kan generera medan den tänker" från 0 till 24 576 tokens med en reglage i Google AI Studio och Vertex AI, eller via en API-parameter. När tankebudgeten är satt till noll matchar modellen Gemini 2.0 Flashs kostnad och latens.
Prissättningen speglar denna flexibilitet, där indatatokens kostar 15 cent per miljon och utdata 60 cent per miljon utan resonemang. Med tänkandefunktion aktiverad ökar kostnaden till 3,50 dollar per miljon tokens.
Benchmark-tester visar imponerande resultat. Gemini 2.5 Flash "presterar starkt på Hard Prompts i LMArena, endast överträffad av 2.5 Pro" och "har jämförbara mätvärden med andra ledande modeller till en bråkdel av kostnaden och storleken," och fortsätter "att leda som modellen med bäst pris-prestanda-förhållande."
Google beskriver 2.5 Flash som sin "mest effektiva arbetsmodell utformad för hastighet och låg kostnad," och noterar att den "har förbättrats över viktiga benchmarks för resonemang, multimodalitet, kod och lång kontext, samtidigt som den blivit ännu mer effektiv och använder 20–30 % färre tokens" i utvärderingar.
Den nya modellen är för närvarande tillgänglig i förhandsvisningsläge via flera kanaler. Den rullas ut "i Google AI Studio (utvecklare), Vertex AI (företag) och Gemini-appen (alla)." Enligt Googles I/O 2025-annonseringar kommer den uppdaterade versionen att vara "allmänt tillgänglig i Google AI Studio för utvecklare och i Vertex AI för företag i början av juni," med Gemini 2.5 Pro som följer "strax därefter."
När Google fortsätter att utöka sina AI-förmågor representerar Gemini 2.5 Flash ett betydande steg framåt för att göra avancerat resonemang mer tillgängligt och kostnadseffektivt för både utvecklare och användare.