Google DeepMind представи Gemini Diffusion – революционен подход към AI генерирането на текст, който представлява значителен напредък спрямо традиционните авторегресивни езикови модели.
За разлика от конвенционалните модели, които създават текст по един токен последователно, Gemini Diffusion използва дифузионна технология – досега основно прилагана при генериране на изображения и видео – за да превърне случаен шум в смислен текст чрез итеративен процес. Този новаторски подход позволява на модела да генерира съдържание със забележителна скорост до 2000 токена в секунда, според изследователите от DeepMind.
„Вместо да предсказват текста директно, моделите се учат да създават изход чрез поетапно прецизиране на шума“, обясняват от Google в своето съобщение. „Това означава, че могат много бързо да итерат върху решение и да коригират грешки по време на процеса на генериране.“
Експерименталната демонстрация, която в момента е достъпна чрез списък с чакащи, показва как тази технология може да постигне същото ниво на кодиране като съществуващите модели на Google, като същевременно драстично намалява времето за генериране. В бенчмаркове Gemini Diffusion се представя сравнимо с Gemini 2.0 Flash-Lite при програмни задачи като HumanEval и MBPP, като резултатите са почти идентични.
Ориол Винялс, вицепрезидент по изследванията и ръководител на Deep Learning в Google DeepMind, както и съръководител на проекта Gemini, определи пускането като личен етап, отбелязвайки, че демонстрацията е била толкова бърза, че е трябвало да забавят видеото, за да бъде гледаемо.
Успоредно с това Google подобри серията Gemini 2.5 с нови възможности. Компанията пусна Gemini 2.5 Flash с „бюджети за мислене“, които дават на разработчиците безпрецедентен контрол върху степента на разсъждение на AI. Тази функция позволява на потребителите да балансират между качество, латентност и разходи чрез задаване на лимит на токени (до 24 576 токена) за процеса на разсъждение на модела.
Google също така разширява „бюджетите за мислене“ към Gemini 2.5 Pro, като общата наличност се очаква през следващите седмици. Освен това компанията добави и родна SDK поддръжка за дефиниции на Model Context Protocol (MCP) в Gemini API, което улеснява интеграцията с инструменти с отворен код и изграждането на агентни приложения.
Тези нововъведения представляват стремежа на Google да направи AI по-ефективен, управляем и достъпен за разработчиците, като същевременно поддържа високи стандарти за производителност.