Google DeepMind har introducerat Gemini Diffusion, ett revolutionerande tillvägagångssätt för AI-textgenerering som markerar ett betydande avsteg från traditionella autoregressiva språkmodeller.
Till skillnad från konventionella modeller som genererar text en token i taget i sekvens, använder Gemini Diffusion diffusionsteknik—tidigare främst använd inom bild- och videoproduktion—för att stegvis förfina slumpmässigt brus till sammanhängande text. Detta nya angreppssätt gör det möjligt för modellen att generera innehåll i imponerande hastigheter på upp till 2 000 token per sekund, enligt forskare på DeepMind.
"Istället för att förutsäga text direkt, lär de sig att generera utdata genom att steg för steg förfina brus," förklarar Google i sitt tillkännagivande. "Det innebär att de snabbt kan iterera fram en lösning och korrigera fel under själva genereringsprocessen."
Den experimentella demon, som för närvarande är tillgänglig via väntelista, visar hur tekniken kan matcha kodningsprestandan hos Googles befintliga modeller samtidigt som genereringstiden minskar dramatiskt. I benchmarktester presterar Gemini Diffusion jämförbart med Gemini 2.0 Flash-Lite på programmeringsuppgifter som HumanEval och MBPP, med nästintill identiska resultat.
Oriol Vinyals, forskningschef och ansvarig för djupinlärning på Google DeepMind samt medansvarig för Gemini-projektet, beskrev lanseringen som en personlig milstolpe och noterade att demon gick så snabbt att de var tvungna att sakta ner videon för att den skulle vara möjlig att titta på.
Parallellt har Google förbättrat sin Gemini 2.5-serie med nya funktioner. Företaget har lanserat Gemini 2.5 Flash med "thinking budgets", vilket ger utvecklare enastående kontroll över hur mycket resonemang AI:n utför. Denna funktion gör det möjligt för användare att balansera kvalitet, svarstid och kostnad genom att sätta en token-gräns (upp till 24 576 token) för modellens resonemangsprocess.
Google utökar även "thinking budgets" till Gemini 2.5 Pro, med allmän tillgänglighet inom de närmaste veckorna. Dessutom har företaget lagt till inbyggt SDK-stöd för Model Context Protocol (MCP)-definitioner i Gemini API, vilket förenklar integrationen med öppen källkod och utveckling av agentbaserade applikationer.
Dessa framsteg representerar sammantaget Googles satsning på att göra AI mer effektiv, kontrollerbar och tillgänglig för utvecklare, samtidigt som höga prestandakrav bibehålls.