Google DeepMind a prezentat Gemini Diffusion, o abordare revoluționară pentru generarea de text cu inteligență artificială, care reprezintă o abatere semnificativă de la modelele lingvistice autoregresive tradiționale.
Spre deosebire de modelele convenționale care generează textul secvențial, câte un token pe rând, Gemini Diffusion folosește tehnologia de difuzie—utilizată anterior în principal pentru generarea de imagini și videoclipuri—pentru a rafina zgomotul aleatoriu într-un text coerent printr-un proces iterativ. Această abordare inovatoare permite modelului să genereze conținut la viteze remarcabile de până la 2.000 de tokeni pe secundă, potrivit cercetătorilor DeepMind.
„În loc să prezică textul direct, modelele învață să genereze rezultate prin rafinarea zgomotului, pas cu pas”, explică Google în anunțul său. „Acest lucru înseamnă că pot itera rapid asupra unei soluții și pot corecta erorile în timpul procesului de generare.”
Demo-ul experimental, disponibil momentan pe bază de listă de așteptare, demonstrează cum această tehnologie poate egala performanța la programare a modelelor existente Google, reducând dramatic timpul de generare. În testele de referință, Gemini Diffusion are performanțe comparabile cu Gemini 2.0 Flash-Lite la sarcini de programare precum HumanEval și MBPP, obținând rezultate aproape identice.
Oriol Vinyals, VP de Cercetare și lider în Deep Learning la Google DeepMind, precum și co-lider al proiectului Gemini, a descris lansarea ca pe un reper personal, menționând că demo-ul a rulat atât de rapid încât a fost nevoie să încetinească videoclipul pentru a putea fi urmărit.
În paralel, Google a îmbunătățit gama Gemini 2.5 cu noi capabilități. Compania a lansat Gemini 2.5 Flash cu bugete de gândire, oferind dezvoltatorilor un control fără precedent asupra nivelului de raționament pe care îl realizează AI-ul. Această funcționalitate permite utilizatorilor să echilibreze calitatea, latența și costul, setând o limită de tokeni (până la 24.576 de tokeni) pentru procesul de raționament al modelului.
Google extinde, de asemenea, bugetele de gândire către Gemini 2.5 Pro, disponibilitatea generală fiind programată pentru următoarele săptămâni. În plus, compania a adăugat suport SDK nativ pentru definițiile Model Context Protocol (MCP) în API-ul Gemini, facilitând integrarea cu instrumente open-source și dezvoltarea de aplicații agentice.
Aceste progrese reprezintă împreună efortul Google de a face AI-ul mai eficient, controlabil și accesibil pentru dezvoltatori, menținând în același timp standarde ridicate de performanță.