menu
close

Gemini Diffusion od Googlu revolučne mení generovanie AI textu

Google predstavil Gemini Diffusion, prelomový model generovania textu, ktorý premieňa náhodný šum na zmysluplný text až päťkrát rýchlejšie než doterajšie modely. Experimentálny model využíva difúznu technológiu – podobnú tej pri generovaní obrázkov – a dokáže produkovať až 2 000 tokenov za sekundu pri zachovaní programátorského výkonu existujúcich modelov. Google zároveň vylepšil rad Gemini 2.5 o tzv. rozpočty na premýšľanie, ktoré vývojárom umožňujú presne riadiť schopnosti uvažovania a náklady.
Gemini Diffusion od Googlu revolučne mení generovanie AI textu

Google DeepMind predstavil Gemini Diffusion, revolučný prístup ku generovaniu AI textu, ktorý znamená významný odklon od tradičných autoregresívnych jazykových modelov.

Na rozdiel od bežných modelov, ktoré generujú text po jednom tokene v poradí, Gemini Diffusion využíva difúznu technológiu – doteraz používanú najmä pri generovaní obrázkov a videí – na postupné pretváranie náhodného šumu na zmysluplný text. Tento inovatívny prístup umožňuje modelu generovať obsah pozoruhodnou rýchlosťou až 2 000 tokenov za sekundu, uvádzajú výskumníci z DeepMind.

„Namiesto priameho predpovedania textu sa modely učia generovať výstupy postupným vylepšovaním šumu,“ vysvetľuje Google vo svojom oznámení. „To znamená, že môžu veľmi rýchlo iterovať na riešení a opravovať chyby už počas procesu generovania.“

Experimentálna ukážka, momentálne dostupná cez čakaciu listinu, demonštruje, ako táto technológia dokáže dosiahnuť programátorský výkon existujúcich modelov Googlu a zároveň dramaticky skrátiť čas generovania. V benchmarkoch dosahuje Gemini Diffusion porovnateľné výsledky s Gemini 2.0 Flash-Lite v programátorských úlohách ako HumanEval a MBPP, pričom výsledky sú takmer totožné.

Oriol Vinyals, viceprezident pre výskum a vedúci oblasti deep learningu v Google DeepMind a spolupredseda projektu Gemini, označil vydanie za osobný míľnik a poznamenal, že demo bežalo tak rýchlo, že museli video spomaliť, aby bolo pozerateľné.

Súbežne Google vylepšil aj rad Gemini 2.5 o nové možnosti. Spoločnosť uviedla Gemini 2.5 Flash s rozpočtami na premýšľanie, ktoré vývojárom poskytujú bezprecedentnú kontrolu nad tým, koľko uvažovania AI vykonáva. Táto funkcia umožňuje používateľom vyvážiť kvalitu, latenciu a náklady nastavením limitu tokenov (až do 24 576 tokenov) pre proces uvažovania modelu.

Google rozširuje rozpočty na premýšľanie aj na Gemini 2.5 Pro, pričom všeobecná dostupnosť sa očakáva v najbližších týždňoch. Okrem toho spoločnosť pridala natívnu podporu SDK pre definície Model Context Protocol (MCP) v Gemini API, čo zjednodušuje integráciu s open-source nástrojmi a vývoj agentných aplikácií.

Tieto pokroky spoločne predstavujú snahu Googlu sprístupniť AI vývojárom efektívnejším, lepšie ovládateľným a dostupnejším spôsobom pri zachovaní vysokého výkonu.

Source:

Latest News