Google DeepMind heeft Gemini Diffusion geïntroduceerd, een revolutionaire benadering van AI-tekstgeneratie die een duidelijke breuk betekent met traditionele autoregressieve taalmodellen.
In tegenstelling tot conventionele modellen die tekst één token tegelijk en sequentieel genereren, maakt Gemini Diffusion gebruik van diffusietechnologie—tot nu toe vooral toegepast bij beeld- en videogeneratie—om willekeurige ruis via een iteratief proces om te zetten in samenhangende tekst. Deze nieuwe aanpak stelt het model in staat om content te genereren met indrukwekkende snelheden tot 2.000 tokens per seconde, aldus onderzoekers van DeepMind.
"In plaats van tekst direct te voorspellen, leren ze uitvoer te genereren door ruis stap voor stap te verfijnen," legt Google uit in de aankondiging. "Dit betekent dat ze zeer snel kunnen itereren op een oplossing en fouten kunnen corrigeren tijdens het genereren."
De experimentele demo, momenteel beschikbaar via een wachtlijst, laat zien hoe deze technologie de codeerprestaties van bestaande Google-modellen kan evenaren, terwijl de generatietijd drastisch wordt verkort. In benchmarks presteert Gemini Diffusion vergelijkbaar met Gemini 2.0 Flash-Lite bij programmeertaken zoals HumanEval en MBPP, met vrijwel identieke resultaten.
Oriol Vinyals, VP Research en Deep Learning Lead bij Google DeepMind en medehoofd van het Gemini-project, beschreef de release als een persoonlijke mijlpaal en merkte op dat de demo zo snel draaide dat ze de video moesten vertragen om deze bekijkbaar te maken.
Tegelijkertijd heeft Google zijn Gemini 2.5-lijn uitgebreid met nieuwe mogelijkheden. Het bedrijf lanceerde Gemini 2.5 Flash met denkbudgetten, waarmee ontwikkelaars ongekende controle krijgen over hoeveel redeneervermogen hun AI inzet. Met deze functie kunnen gebruikers de balans bepalen tussen kwaliteit, latentie en kosten door een tokenlimiet (tot 24.576 tokens) in te stellen voor het redeneerproces van het model.
Google breidt denkbudgetten ook uit naar Gemini 2.5 Pro, met algemene beschikbaarheid in de komende weken. Daarnaast heeft het bedrijf native SDK-ondersteuning toegevoegd voor Model Context Protocol (MCP)-definities in de Gemini API, waardoor integratie met open-source tools en het bouwen van agentische applicaties eenvoudiger wordt.
Deze ontwikkelingen tonen gezamenlijk Google's inzet om AI efficiënter, beter beheersbaar en toegankelijker te maken voor ontwikkelaars, terwijl hoge prestatienormen gehandhaafd blijven.