menu
close

Googleova Gemini Diffusion revolucionira generiranje AI teksta

Google je predstavio Gemini Diffusion, revolucionarni model za generiranje teksta koji pretvara nasumičnu buku u koherentan tekst do pet puta brže od prethodnih modela. Eksperimentalni model koristi difuzijsku tehnologiju—sličnu onoj u generiranju slika—za proizvodnju do 2.000 tokena u sekundi, uz zadržavanje razine kodiranja postojećih modela. Google je također unaprijedio svoju Gemini 2.5 liniju s "thinking budgets" opcijom koja programerima omogućuje preciznu kontrolu nad mogućnostima zaključivanja i troškovima.
Googleova Gemini Diffusion revolucionira generiranje AI teksta

Google DeepMind predstavio je Gemini Diffusion, revolucionarni pristup generiranju AI teksta koji predstavlja značajan odmak od tradicionalnih autoregresivnih jezičnih modela.

Za razliku od konvencionalnih modela koji generiraju tekst jedan po jedan token u nizu, Gemini Diffusion koristi difuzijsku tehnologiju—koja se dosad uglavnom koristila u generiranju slika i videa—kako bi kroz iterativni proces pretvorio nasumičnu buku u smislen tekst. Ovaj novi pristup omogućuje modelu generiranje sadržaja nevjerojatnom brzinom do 2.000 tokena u sekundi, navode istraživači iz DeepMinda.

"Umjesto da izravno predviđaju tekst, modeli uče generirati izlaz tako što postupno pročišćavaju buku, korak po korak," objašnjava Google u svojoj objavi. "To znači da mogu vrlo brzo iterirati rješenja i ispravljati pogreške tijekom procesa generiranja."

Eksperimentalna demo verzija, trenutno dostupna putem liste čekanja, pokazuje kako ova tehnologija može doseći razinu kodiranja postojećih Googleovih modela, uz drastično smanjenje vremena generiranja. U testiranjima, Gemini Diffusion postiže rezultate usporedive s Gemini 2.0 Flash-Lite modelom na programerskim zadacima poput HumanEval i MBPP, s gotovo identičnim rezultatima.

Oriol Vinyals, potpredsjednik za istraživanje i voditelj dubokog učenja u Google DeepMind te suvoditelj Gemini projekta, opisao je izdanje kao osobnu prekretnicu, napominjući da su demo morali usporiti na videu kako bi bio gledljiv.

Paralelno s tim, Google je unaprijedio svoju Gemini 2.5 liniju novim mogućnostima. Tvrtka je lansirala Gemini 2.5 Flash s "thinking budgets" opcijom, omogućujući programerima dosad neviđenu kontrolu nad količinom zaključivanja koju AI provodi. Ova značajka korisnicima omogućuje balansiranje kvalitete, latencije i troškova postavljanjem ograničenja na broj tokena (do 24.576 tokena) za proces zaključivanja modela.

Google također proširuje "thinking budgets" na Gemini 2.5 Pro, s općom dostupnošću u narednim tjednima. Osim toga, tvrtka je dodala nativnu SDK podršku za Model Context Protocol (MCP) definicije u Gemini API-ju, što olakšava integraciju s open-source alatima i razvoj agentičkih aplikacija.

Ovi napreci zajedno predstavljaju Googleov napor da AI učini učinkovitijim, kontrolabilnijim i dostupnijim programerima, uz održavanje visokih standarda performansi.

Source:

Latest News