menu
close

Gemini Diffusion от Google революционизирует генерацию текста ИИ

Google представила Gemini Diffusion — инновационную модель генерации текста, которая преобразует случайный шум в связный текст со скоростью до пяти раз выше по сравнению с предыдущими моделями. Экспериментальная модель использует технологию диффузии, аналогичную применяемой при генерации изображений, и способна выдавать до 2000 токенов в секунду, при этом сохраняя уровень производительности в программировании, сопоставимый с существующими моделями. Кроме того, Google усовершенствовала линейку Gemini 2.5, внедрив «бюджеты мышления», которые позволяют разработчикам точно управлять возможностями рассуждения и стоимостью.
Gemini Diffusion от Google революционизирует генерацию текста ИИ

Google DeepMind представила Gemini Diffusion — революционный подход к генерации текста с помощью искусственного интеллекта, который значительно отличается от традиционных авторегрессионных языковых моделей.

В отличие от классических моделей, генерирующих текст последовательно по одному токену, Gemini Diffusion применяет технологию диффузии, ранее использовавшуюся преимущественно для генерации изображений и видео. Модель поэтапно преобразует случайный шум в связный текст с помощью итеративного процесса. Такой инновационный подход позволяет достигать впечатляющей скорости генерации — до 2000 токенов в секунду, отмечают исследователи DeepMind.

«Вместо прямого предсказания текста, модель учится генерировать результат, постепенно уточняя шум шаг за шагом», — объясняют в Google. «Это позволяет очень быстро находить решение и корректировать ошибки прямо в процессе генерации».

Экспериментальная демо-версия, доступная сейчас по списку ожидания, демонстрирует, как новая технология может соперничать с существующими моделями Google по производительности в программировании, при этом существенно сокращая время генерации. В тестах Gemini Diffusion показывает результаты, сопоставимые с Gemini 2.0 Flash-Lite на задачах программирования HumanEval и MBPP, практически не уступая по качеству.

Ориол Виньялс, вице-президент по исследованиям и руководитель направления Deep Learning в Google DeepMind, а также со-руководитель проекта Gemini, назвал выпуск личной вехой, отметив, что демо работало настолько быстро, что видео пришлось замедлять для комфортного просмотра.

Параллельно Google расширила возможности линейки Gemini 2.5. Компания представила Gemini 2.5 Flash с «бюджетами мышления», предоставляя разработчикам беспрецедентный контроль над степенью рассуждения ИИ. Эта функция позволяет балансировать между качеством, задержкой и стоимостью, устанавливая лимит токенов (до 24 576) для процесса рассуждения модели.

В ближайшие недели «бюджеты мышления» станут доступны и в Gemini 2.5 Pro. Кроме того, компания добавила нативную поддержку SDK для определений Model Context Protocol (MCP) в API Gemini, что облегчает интеграцию с open-source инструментами и разработку агентных приложений.

В совокупности эти нововведения отражают стремление Google сделать ИИ более эффективным, управляемым и доступным для разработчиков, сохраняя при этом высокие стандарты производительности.

Source:

Latest News