menu
close

Gemini Diffusion на Google революционизира AI генерирането на текст

Google представи Gemini Diffusion – революционен модел за генериране на текст, който преобразува случаен шум в смислен текст с до пет пъти по-висока скорост от предишните модели. Експерименталният модел използва дифузионна технология, подобна на тази при генерирането на изображения, за да създава до 2000 токена в секунда, като същевременно запазва нивото на кодиране на съществуващите модели. Google също така подобри серията Gemini 2.5 с „бюджети за мислене“, които дават на разработчиците прецизен контрол върху възможностите за разсъждение и разходите.
Gemini Diffusion на Google революционизира AI генерирането на текст

Google DeepMind представи Gemini Diffusion – революционен подход към AI генерирането на текст, който представлява значителен напредък спрямо традиционните авторегресивни езикови модели.

За разлика от конвенционалните модели, които създават текст по един токен последователно, Gemini Diffusion използва дифузионна технология – досега основно прилагана при генериране на изображения и видео – за да превърне случаен шум в смислен текст чрез итеративен процес. Този новаторски подход позволява на модела да генерира съдържание със забележителна скорост до 2000 токена в секунда, според изследователите от DeepMind.

„Вместо да предсказват текста директно, моделите се учат да създават изход чрез поетапно прецизиране на шума“, обясняват от Google в своето съобщение. „Това означава, че могат много бързо да итерат върху решение и да коригират грешки по време на процеса на генериране.“

Експерименталната демонстрация, която в момента е достъпна чрез списък с чакащи, показва как тази технология може да постигне същото ниво на кодиране като съществуващите модели на Google, като същевременно драстично намалява времето за генериране. В бенчмаркове Gemini Diffusion се представя сравнимо с Gemini 2.0 Flash-Lite при програмни задачи като HumanEval и MBPP, като резултатите са почти идентични.

Ориол Винялс, вицепрезидент по изследванията и ръководител на Deep Learning в Google DeepMind, както и съръководител на проекта Gemini, определи пускането като личен етап, отбелязвайки, че демонстрацията е била толкова бърза, че е трябвало да забавят видеото, за да бъде гледаемо.

Успоредно с това Google подобри серията Gemini 2.5 с нови възможности. Компанията пусна Gemini 2.5 Flash с „бюджети за мислене“, които дават на разработчиците безпрецедентен контрол върху степента на разсъждение на AI. Тази функция позволява на потребителите да балансират между качество, латентност и разходи чрез задаване на лимит на токени (до 24 576 токена) за процеса на разсъждение на модела.

Google също така разширява „бюджетите за мислене“ към Gemini 2.5 Pro, като общата наличност се очаква през следващите седмици. Освен това компанията добави и родна SDK поддръжка за дефиниции на Model Context Protocol (MCP) в Gemini API, което улеснява интеграцията с инструменти с отворен код и изграждането на агентни приложения.

Тези нововъведения представляват стремежа на Google да направи AI по-ефективен, управляем и достъпен за разработчиците, като същевременно поддържа високи стандарти за производителност.

Source:

Latest News