Google DeepMind představil Gemini Diffusion, revoluční přístup ke generování textu pomocí umělé inteligence, který znamená zásadní odklon od tradičních autoregresivních jazykových modelů.
Na rozdíl od běžných modelů, které generují text sekvenčně po jednotlivých tokenech, využívá Gemini Diffusion difuzní technologii – dosud používanou hlavně při generování obrázků a videí – k postupnému zpřesňování náhodného šumu do smysluplného textu. Tento inovativní přístup umožňuje modelu generovat obsah neuvěřitelnou rychlostí až 2 000 tokenů za sekundu, jak uvádějí výzkumníci z DeepMind.
„Namísto přímé predikce textu se model učí generovat výstupy postupným zpřesňováním šumu,“ vysvětluje Google ve svém oznámení. „To znamená, že může velmi rychle iterovat a opravovat chyby už během samotného procesu generování.“
Experimentální demo, které je aktuálně dostupné prostřednictvím čekací listiny, ukazuje, že tato technologie dokáže dosáhnout srovnatelného výkonu v programování jako stávající modely Googlu, přičemž výrazně zkracuje dobu generování. V benchmarcích Gemini Diffusion dosahuje podobných výsledků jako Gemini 2.0 Flash-Lite v úlohách jako HumanEval a MBPP.
Oriol Vinyals, viceprezident pro výzkum a vedoucí deep learningu v Google DeepMind a spolupředseda projektu Gemini, označil vydání za osobní milník a poznamenal, že demo běželo tak rychle, že museli zpomalit video, aby bylo vůbec sledovatelné.
Současně Google rozšířil řadu Gemini 2.5 o nové možnosti. Společnost představila Gemini 2.5 Flash s rozpočty na přemýšlení, které vývojářům dávají bezprecedentní kontrolu nad tím, kolik "uvažování" jejich AI provede. Tato funkce umožňuje uživatelům vyvážit kvalitu, latenci a náklady nastavením limitu tokenů (až 24 576 tokenů) pro proces uvažování modelu.
Google také rozšiřuje rozpočty na přemýšlení na Gemini 2.5 Pro, přičemž obecná dostupnost se očekává v následujících týdnech. Navíc společnost přidala nativní podporu SDK pro definice Model Context Protocol (MCP) v Gemini API, což usnadňuje integraci s open-source nástroji a vývoj agentních aplikací.
Tyto inovace představují další krok Googlu směrem k efektivnější, lépe ovladatelné a dostupnější AI pro vývojáře při zachování vysokých standardů výkonu.