Gemini Diffusion od Google rewolucjonizuje generowanie tekstu przez AI

Google zaprezentował Gemini Diffusion – przełomowy model generowania tekstu, który przekształca losowy szum w spójną treść nawet pięć razy szybciej niż dotychczasowe rozwiązania. Eksperymentalny model wykorzystuje technologię dyfuzji, znaną z generowania obrazów, by wytwarzać do 2000 tokenów na sekundę, dorównując przy tym wydajnością kodowania istniejącym modelom. Google udoskonalił także linię Gemini 2.5, wprowadzając budżety myślenia, które dają deweloperom precyzyjną kontrolę nad możliwościami rozumowania i kosztami.

Google DeepMind wprowadził Gemini Diffusion – rewolucyjne podejście do generowania tekstu przez sztuczną inteligencję, stanowiące znaczące odejście od tradycyjnych autoregresyjnych modeli językowych.

W przeciwieństwie do konwencjonalnych modeli, które generują tekst sekwencyjnie, token po tokenie, Gemini Diffusion wykorzystuje technologię dyfuzji – dotąd stosowaną głównie do generowania obrazów i wideo – aby w iteracyjnym procesie przekształcać losowy szum w spójny tekst. To nowatorskie podejście pozwala modelowi osiągać imponujące prędkości generowania treści, sięgające nawet 2000 tokenów na sekundę, jak podkreślają badacze DeepMind.

„Zamiast bezpośrednio przewidywać tekst, modele uczą się generować wyniki poprzez stopniowe udoskonalanie szumu” – wyjaśnia Google w swoim komunikacie. „Oznacza to, że mogą bardzo szybko iterować nad rozwiązaniem i korygować błędy już w trakcie generowania.”

Eksperymentalna wersja demonstracyjna, obecnie dostępna na liście oczekujących, pokazuje, jak ta technologia dorównuje wydajnością kodowania istniejącym modelom Google, jednocześnie znacząco skracając czas generowania. W testach porównawczych Gemini Diffusion osiąga wyniki podobne do Gemini 2.0 Flash-Lite w zadaniach programistycznych takich jak HumanEval i MBPP, uzyskując niemal identyczne rezultaty.

Oriol Vinyals, wiceprezes ds. badań i lider zespołu Deep Learning w Google DeepMind oraz współkierownik projektu Gemini, określił premierę jako osobisty kamień milowy, podkreślając, że demo działało tak szybko, iż trzeba było spowolnić nagranie, by było możliwe do obejrzenia.

Równolegle Google udoskonalił linię Gemini 2.5, wprowadzając nowe możliwości. Firma zaprezentowała Gemini 2.5 Flash z budżetami myślenia, dając deweloperom bezprecedensową kontrolę nad zakresem rozumowania wykonywanego przez AI. Funkcja ta pozwala użytkownikom balansować jakość, opóźnienia i koszty poprzez ustawienie limitu tokenów (do 24 576 tokenów) wykorzystywanych w procesie rozumowania modelu.

Google rozszerza także budżety myślenia na Gemini 2.5 Pro, a ogólna dostępność tej funkcji planowana jest na najbliższe tygodnie. Dodatkowo firma wprowadziła natywną obsługę SDK dla definicji Model Context Protocol (MCP) w API Gemini, co ułatwia integrację z narzędziami open source i budowę aplikacji agentowych.

Te innowacje stanowią kolejny krok Google w kierunku uczynienia AI bardziej wydajną, sterowalną i dostępną dla deweloperów, przy jednoczesnym zachowaniu najwyższych standardów wydajności.

Source:

Gemini Diffusion od Google rewolucjonizuje generowanie tekstu przez AI

Latest News

SEC zaostrza działania przeciwko wprowadzającym w błąd deklaracjom dotyczącym AI

Sędzia rozważa wpływ AI w sporze o środki zaradcze w sprawie antymonopolowej Google

Najlepsi Innowatorzy Sztucznej Inteligencji Uhonorowani podczas Excellence Awards 2025

WildFusion daje robotom ludzkie zmysły do nawigacji w terenie

Dotyk na Opuszku Palca: Nowe Narzędzia Haptyczne Rewolucjonizują Bezpieczeństwo Robotów Przemysłowych

VentureBeat prezentuje kluczowe osiągnięcia w dziedzinie AI w maju 2025 roku

Sztuczne mózgi napędzają rewolucję humanoidalnych robotów w Chinach

Roboty opanowują umiejętności społeczne bez nadzoru człowieka

NYT zawiera pierwszą umowę dotyczącą treści AI z Amazonem dla Alexy

Grammarly pozyskuje 1 mld dolarów, by przekształcić się z narzędzia do pisania w platformę AI

Gemini Diffusion od Google rewolucjonizuje generowanie tekstu przez AI

Related Articles

Sędzia rozważa wpływ AI w sporze o środki zaradcze w sprawie antymonopolowej Google

VentureBeat prezentuje kluczowe osiągnięcia w dziedzinie AI w maju 2025 roku

DeepSeek aktualizuje model AI R1, rzucając wyzwanie zachodnim gigantom technologicznym

Google Beam: Rewolucyjne wideorozmowy 3D już w 2025 roku

Google prezentuje Gemini 2.5 Deep Think na I/O 2025

Latest News

SEC zaostrza działania przeciwko wprowadzającym w błąd deklaracjom dotyczącym AI

Sędzia rozważa wpływ AI w sporze o środki zaradcze w sprawie antymonopolowej Google

Najlepsi Innowatorzy Sztucznej Inteligencji Uhonorowani podczas Excellence Awards 2025

WildFusion daje robotom ludzkie zmysły do nawigacji w terenie

Dotyk na Opuszku Palca: Nowe Narzędzia Haptyczne Rewolucjonizują Bezpieczeństwo Robotów Przemysłowych

VentureBeat prezentuje kluczowe osiągnięcia w dziedzinie AI w maju 2025 roku

Sztuczne mózgi napędzają rewolucję humanoidalnych robotów w Chinach

Roboty opanowują umiejętności społeczne bez nadzoru człowieka

NYT zawiera pierwszą umowę dotyczącą treści AI z Amazonem dla Alexy

Grammarly pozyskuje 1 mld dolarów, by przekształcić się z narzędzia do pisania w platformę AI