menu
close

Gemini Diffusion od Google rewolucjonizuje generowanie tekstu przez AI

Google zaprezentował Gemini Diffusion – przełomowy model generowania tekstu, który przekształca losowy szum w spójną treść nawet pięć razy szybciej niż dotychczasowe rozwiązania. Eksperymentalny model wykorzystuje technologię dyfuzji, znaną z generowania obrazów, by wytwarzać do 2000 tokenów na sekundę, dorównując przy tym wydajnością kodowania istniejącym modelom. Google udoskonalił także linię Gemini 2.5, wprowadzając budżety myślenia, które dają deweloperom precyzyjną kontrolę nad możliwościami rozumowania i kosztami.
Gemini Diffusion od Google rewolucjonizuje generowanie tekstu przez AI

Google DeepMind wprowadził Gemini Diffusion – rewolucyjne podejście do generowania tekstu przez sztuczną inteligencję, stanowiące znaczące odejście od tradycyjnych autoregresyjnych modeli językowych.

W przeciwieństwie do konwencjonalnych modeli, które generują tekst sekwencyjnie, token po tokenie, Gemini Diffusion wykorzystuje technologię dyfuzji – dotąd stosowaną głównie do generowania obrazów i wideo – aby w iteracyjnym procesie przekształcać losowy szum w spójny tekst. To nowatorskie podejście pozwala modelowi osiągać imponujące prędkości generowania treści, sięgające nawet 2000 tokenów na sekundę, jak podkreślają badacze DeepMind.

„Zamiast bezpośrednio przewidywać tekst, modele uczą się generować wyniki poprzez stopniowe udoskonalanie szumu” – wyjaśnia Google w swoim komunikacie. „Oznacza to, że mogą bardzo szybko iterować nad rozwiązaniem i korygować błędy już w trakcie generowania.”

Eksperymentalna wersja demonstracyjna, obecnie dostępna na liście oczekujących, pokazuje, jak ta technologia dorównuje wydajnością kodowania istniejącym modelom Google, jednocześnie znacząco skracając czas generowania. W testach porównawczych Gemini Diffusion osiąga wyniki podobne do Gemini 2.0 Flash-Lite w zadaniach programistycznych takich jak HumanEval i MBPP, uzyskując niemal identyczne rezultaty.

Oriol Vinyals, wiceprezes ds. badań i lider zespołu Deep Learning w Google DeepMind oraz współkierownik projektu Gemini, określił premierę jako osobisty kamień milowy, podkreślając, że demo działało tak szybko, iż trzeba było spowolnić nagranie, by było możliwe do obejrzenia.

Równolegle Google udoskonalił linię Gemini 2.5, wprowadzając nowe możliwości. Firma zaprezentowała Gemini 2.5 Flash z budżetami myślenia, dając deweloperom bezprecedensową kontrolę nad zakresem rozumowania wykonywanego przez AI. Funkcja ta pozwala użytkownikom balansować jakość, opóźnienia i koszty poprzez ustawienie limitu tokenów (do 24 576 tokenów) wykorzystywanych w procesie rozumowania modelu.

Google rozszerza także budżety myślenia na Gemini 2.5 Pro, a ogólna dostępność tej funkcji planowana jest na najbliższe tygodnie. Dodatkowo firma wprowadziła natywną obsługę SDK dla definicji Model Context Protocol (MCP) w API Gemini, co ułatwia integrację z narzędziami open source i budowę aplikacji agentowych.

Te innowacje stanowią kolejny krok Google w kierunku uczynienia AI bardziej wydajną, sterowalną i dostępną dla deweloperów, przy jednoczesnym zachowaniu najwyższych standardów wydajności.

Source:

Latest News