Gemini Diffusion на Google революционизира AI генерирането на текст

Google представи Gemini Diffusion – революционен модел за генериране на текст, който преобразува случаен шум в смислен текст с до пет пъти по-висока скорост от предишните модели. Експерименталният модел използва дифузионна технология, подобна на тази при генерирането на изображения, за да създава до 2000 токена в секунда, като същевременно запазва нивото на кодиране на съществуващите модели. Google също така подобри серията Gemini 2.5 с „бюджети за мислене“, които дават на разработчиците прецизен контрол върху възможностите за разсъждение и разходите.

Google DeepMind представи Gemini Diffusion – революционен подход към AI генерирането на текст, който представлява значителен напредък спрямо традиционните авторегресивни езикови модели.

За разлика от конвенционалните модели, които създават текст по един токен последователно, Gemini Diffusion използва дифузионна технология – досега основно прилагана при генериране на изображения и видео – за да превърне случаен шум в смислен текст чрез итеративен процес. Този новаторски подход позволява на модела да генерира съдържание със забележителна скорост до 2000 токена в секунда, според изследователите от DeepMind.

„Вместо да предсказват текста директно, моделите се учат да създават изход чрез поетапно прецизиране на шума“, обясняват от Google в своето съобщение. „Това означава, че могат много бързо да итерат върху решение и да коригират грешки по време на процеса на генериране.“

Експерименталната демонстрация, която в момента е достъпна чрез списък с чакащи, показва как тази технология може да постигне същото ниво на кодиране като съществуващите модели на Google, като същевременно драстично намалява времето за генериране. В бенчмаркове Gemini Diffusion се представя сравнимо с Gemini 2.0 Flash-Lite при програмни задачи като HumanEval и MBPP, като резултатите са почти идентични.

Ориол Винялс, вицепрезидент по изследванията и ръководител на Deep Learning в Google DeepMind, както и съръководител на проекта Gemini, определи пускането като личен етап, отбелязвайки, че демонстрацията е била толкова бърза, че е трябвало да забавят видеото, за да бъде гледаемо.

Успоредно с това Google подобри серията Gemini 2.5 с нови възможности. Компанията пусна Gemini 2.5 Flash с „бюджети за мислене“, които дават на разработчиците безпрецедентен контрол върху степента на разсъждение на AI. Тази функция позволява на потребителите да балансират между качество, латентност и разходи чрез задаване на лимит на токени (до 24 576 токена) за процеса на разсъждение на модела.

Google също така разширява „бюджетите за мислене“ към Gemini 2.5 Pro, като общата наличност се очаква през следващите седмици. Освен това компанията добави и родна SDK поддръжка за дефиниции на Model Context Protocol (MCP) в Gemini API, което улеснява интеграцията с инструменти с отворен код и изграждането на агентни приложения.

Тези нововъведения представляват стремежа на Google да направи AI по-ефективен, управляем и достъпен за разработчиците, като същевременно поддържа високи стандарти за производителност.

Source:

Gemini Diffusion на Google революционизира AI генерирането на текст

Latest News

SEC засилва мерките срещу подвеждащи твърдения за изкуствен интелект

Съдията обмисля влиянието на изкуствения интелект в битката за антимонополни мерки срещу Google

Водещи иноватори в изкуствения интелект отличени на Наградите за върхови постижения 2025

WildFusion дава на роботите човешки сетива за навигация на открито

Обратна връзка на върха на пръстите: Нови хаптични инструменти трансформират безопасността при индустриалните роботи

VentureBeat акцентира върху големи AI постижения през май 2025 г.

Изкуствени интелекти задвижват революцията на хуманоидните роботи в Китай

Роботите усвояват социални умения без човешки надзор

NYT сключи първата си сделка за AI съдържание с Amazon за Alexa

Grammarly осигурява 1 млрд. долара, за да се трансформира от инструмент за писане в AI платформа

Gemini Diffusion на Google революционизира AI генерирането на текст

Related Articles

Съдията обмисля влиянието на изкуствения интелект в битката за антимонополни мерки срещу Google

VentureBeat акцентира върху големи AI постижения през май 2025 г.

DeepSeek подобрява модела си R1 и отправя предизвикателство към западните технологични гиганти

Google Beam: Революционни 3D видеоразговори идват през 2025 г.

Google представи Gemini 2.5 Deep Think на I/O 2025

Latest News

SEC засилва мерките срещу подвеждащи твърдения за изкуствен интелект

Съдията обмисля влиянието на изкуствения интелект в битката за антимонополни мерки срещу Google

Водещи иноватори в изкуствения интелект отличени на Наградите за върхови постижения 2025

WildFusion дава на роботите човешки сетива за навигация на открито

Обратна връзка на върха на пръстите: Нови хаптични инструменти трансформират безопасността при индустриалните роботи

VentureBeat акцентира върху големи AI постижения през май 2025 г.

Изкуствени интелекти задвижват революцията на хуманоидните роботи в Китай

Роботите усвояват социални умения без човешки надзор

NYT сключи първата си сделка за AI съдържание с Amazon за Alexa

Grammarly осигурява 1 млрд. долара, за да се трансформира от инструмент за писане в AI платформа