menu
close

Gemini Diffusion de la Google Revoluționează Generarea de Text cu Inteligență Artificială

Google a lansat Gemini Diffusion, un model revoluționar de generare a textului care transformă zgomotul aleatoriu în text coerent de până la cinci ori mai rapid decât modelele anterioare. Acest model experimental utilizează tehnologia de difuzie—similară cu tehnicile de generare a imaginilor—pentru a produce până la 2.000 de tokeni pe secundă, menținând totodată performanța la programare a modelelor existente. Google a îmbunătățit, de asemenea, gama Gemini 2.5 cu bugete de gândire, oferind dezvoltatorilor control precis asupra capacităților de raționament și a costurilor.
Gemini Diffusion de la Google Revoluționează Generarea de Text cu Inteligență Artificială

Google DeepMind a prezentat Gemini Diffusion, o abordare revoluționară pentru generarea de text cu inteligență artificială, care reprezintă o abatere semnificativă de la modelele lingvistice autoregresive tradiționale.

Spre deosebire de modelele convenționale care generează textul secvențial, câte un token pe rând, Gemini Diffusion folosește tehnologia de difuzie—utilizată anterior în principal pentru generarea de imagini și videoclipuri—pentru a rafina zgomotul aleatoriu într-un text coerent printr-un proces iterativ. Această abordare inovatoare permite modelului să genereze conținut la viteze remarcabile de până la 2.000 de tokeni pe secundă, potrivit cercetătorilor DeepMind.

„În loc să prezică textul direct, modelele învață să genereze rezultate prin rafinarea zgomotului, pas cu pas”, explică Google în anunțul său. „Acest lucru înseamnă că pot itera rapid asupra unei soluții și pot corecta erorile în timpul procesului de generare.”

Demo-ul experimental, disponibil momentan pe bază de listă de așteptare, demonstrează cum această tehnologie poate egala performanța la programare a modelelor existente Google, reducând dramatic timpul de generare. În testele de referință, Gemini Diffusion are performanțe comparabile cu Gemini 2.0 Flash-Lite la sarcini de programare precum HumanEval și MBPP, obținând rezultate aproape identice.

Oriol Vinyals, VP de Cercetare și lider în Deep Learning la Google DeepMind, precum și co-lider al proiectului Gemini, a descris lansarea ca pe un reper personal, menționând că demo-ul a rulat atât de rapid încât a fost nevoie să încetinească videoclipul pentru a putea fi urmărit.

În paralel, Google a îmbunătățit gama Gemini 2.5 cu noi capabilități. Compania a lansat Gemini 2.5 Flash cu bugete de gândire, oferind dezvoltatorilor un control fără precedent asupra nivelului de raționament pe care îl realizează AI-ul. Această funcționalitate permite utilizatorilor să echilibreze calitatea, latența și costul, setând o limită de tokeni (până la 24.576 de tokeni) pentru procesul de raționament al modelului.

Google extinde, de asemenea, bugetele de gândire către Gemini 2.5 Pro, disponibilitatea generală fiind programată pentru următoarele săptămâni. În plus, compania a adăugat suport SDK nativ pentru definițiile Model Context Protocol (MCP) în API-ul Gemini, facilitând integrarea cu instrumente open-source și dezvoltarea de aplicații agentice.

Aceste progrese reprezintă împreună efortul Google de a face AI-ul mai eficient, controlabil și accesibil pentru dezvoltatori, menținând în același timp standarde ridicate de performanță.

Source:

Latest News