Gemini Diffusion от Google революционизирует генерацию текста ИИ

Google представила Gemini Diffusion — инновационную модель генерации текста, которая преобразует случайный шум в связный текст со скоростью до пяти раз выше по сравнению с предыдущими моделями. Экспериментальная модель использует технологию диффузии, аналогичную применяемой при генерации изображений, и способна выдавать до 2000 токенов в секунду, при этом сохраняя уровень производительности в программировании, сопоставимый с существующими моделями. Кроме того, Google усовершенствовала линейку Gemini 2.5, внедрив «бюджеты мышления», которые позволяют разработчикам точно управлять возможностями рассуждения и стоимостью.

Google DeepMind представила Gemini Diffusion — революционный подход к генерации текста с помощью искусственного интеллекта, который значительно отличается от традиционных авторегрессионных языковых моделей.

В отличие от классических моделей, генерирующих текст последовательно по одному токену, Gemini Diffusion применяет технологию диффузии, ранее использовавшуюся преимущественно для генерации изображений и видео. Модель поэтапно преобразует случайный шум в связный текст с помощью итеративного процесса. Такой инновационный подход позволяет достигать впечатляющей скорости генерации — до 2000 токенов в секунду, отмечают исследователи DeepMind.

«Вместо прямого предсказания текста, модель учится генерировать результат, постепенно уточняя шум шаг за шагом», — объясняют в Google. «Это позволяет очень быстро находить решение и корректировать ошибки прямо в процессе генерации».

Экспериментальная демо-версия, доступная сейчас по списку ожидания, демонстрирует, как новая технология может соперничать с существующими моделями Google по производительности в программировании, при этом существенно сокращая время генерации. В тестах Gemini Diffusion показывает результаты, сопоставимые с Gemini 2.0 Flash-Lite на задачах программирования HumanEval и MBPP, практически не уступая по качеству.

Ориол Виньялс, вице-президент по исследованиям и руководитель направления Deep Learning в Google DeepMind, а также со-руководитель проекта Gemini, назвал выпуск личной вехой, отметив, что демо работало настолько быстро, что видео пришлось замедлять для комфортного просмотра.

Параллельно Google расширила возможности линейки Gemini 2.5. Компания представила Gemini 2.5 Flash с «бюджетами мышления», предоставляя разработчикам беспрецедентный контроль над степенью рассуждения ИИ. Эта функция позволяет балансировать между качеством, задержкой и стоимостью, устанавливая лимит токенов (до 24 576) для процесса рассуждения модели.

В ближайшие недели «бюджеты мышления» станут доступны и в Gemini 2.5 Pro. Кроме того, компания добавила нативную поддержку SDK для определений Model Context Protocol (MCP) в API Gemini, что облегчает интеграцию с open-source инструментами и разработку агентных приложений.

В совокупности эти нововведения отражают стремление Google сделать ИИ более эффективным, управляемым и доступным для разработчиков, сохраняя при этом высокие стандарты производительности.

Source:

Gemini Diffusion от Google революционизирует генерацию текста ИИ

Latest News

SEC усиливает борьбу с вводящими в заблуждение заявлениями об ИИ

Судья учитывает влияние ИИ в споре о мерах против Google по антимонопольному делу

Лучшие инноваторы в области ИИ отмечены на премии Excellence Awards 2025 года

WildFusion наделяет роботов человеческими чувствами для навигации на открытом воздухе

Обратная связь на кончиках пальцев: новые тактильные устройства меняют безопасность промышленных роботов

VentureBeat освещает ключевые достижения в области искусственного интеллекта в мае 2025 года

ИИ-мозги приводят в движение революцию гуманоидных роботов в Китае

Роботы осваивают социальные навыки без участия человека

NYT заключила первую сделку по лицензированию контента для ИИ с Amazon для Alexa

Grammarly привлекает $1 млрд для трансформации из инструмента для письма в AI-платформу

Gemini Diffusion от Google революционизирует генерацию текста ИИ

Related Articles

Судья учитывает влияние ИИ в споре о мерах против Google по антимонопольному делу

VentureBeat освещает ключевые достижения в области искусственного интеллекта в мае 2025 года

DeepSeek обновляет ИИ-модель R1 и бросает вызов западным технологическим гигантам

Google Beam: Революционные 3D-видеозвонки появятся в 2025 году

Google представляет Gemini 2.5 Deep Think на I/O 2025

Latest News

SEC усиливает борьбу с вводящими в заблуждение заявлениями об ИИ

Судья учитывает влияние ИИ в споре о мерах против Google по антимонопольному делу

Лучшие инноваторы в области ИИ отмечены на премии Excellence Awards 2025 года

WildFusion наделяет роботов человеческими чувствами для навигации на открытом воздухе

Обратная связь на кончиках пальцев: новые тактильные устройства меняют безопасность промышленных роботов

VentureBeat освещает ключевые достижения в области искусственного интеллекта в мае 2025 года

ИИ-мозги приводят в движение революцию гуманоидных роботов в Китае

Роботы осваивают социальные навыки без участия человека

NYT заключила первую сделку по лицензированию контента для ИИ с Amazon для Alexa

Grammarly привлекает $1 млрд для трансформации из инструмента для письма в AI-платформу