menu
close

Gemini Diffusion від Google революціонізує генерацію тексту ШІ

Google представила Gemini Diffusion — революційну модель генерації тексту, яка перетворює випадковий шум у зв’язний текст зі швидкістю до п’яти разів швидше за попередні моделі. Експериментальна модель використовує дифузійну технологію, схожу на ту, що застосовується для генерації зображень, і здатна створювати до 2 000 токенів на секунду, зберігаючи рівень продуктивності в програмуванні, як у наявних моделей. Крім того, Google вдосконалила лінійку Gemini 2.5, додавши бюджети мислення, які дають розробникам точний контроль над можливостями міркування та витратами.
Gemini Diffusion від Google революціонізує генерацію тексту ШІ

Google DeepMind представила Gemini Diffusion — революційний підхід до генерації тексту штучним інтелектом, який суттєво відрізняється від традиційних автогенеративних мовних моделей.

На відміну від класичних моделей, що генерують текст по одному токену послідовно, Gemini Diffusion використовує дифузійну технологію, яка раніше застосовувалася переважно для створення зображень та відео. Вона поступово перетворює випадковий шум на зв’язний текст через ітеративний процес. За словами дослідників DeepMind, цей новий підхід дозволяє моделі генерувати контент із вражаючою швидкістю — до 2 000 токенів на секунду.

«Замість прямого передбачення тексту, моделі навчаються створювати результати, поступово уточнюючи шум», — пояснюють у Google. «Це дозволяє дуже швидко ітеративно знаходити рішення та виправляти помилки під час генерації».

Експериментальна демоверсія, наразі доступна за списком очікування, демонструє, як ця технологія може досягати рівня продуктивності в програмуванні, як у наявних моделей Google, водночас суттєво скорочуючи час генерації. У тестах Gemini Diffusion показує результати, порівнянні з Gemini 2.0 Flash-Lite у завданнях з програмування, таких як HumanEval та MBPP, демонструючи майже ідентичні показники.

Оріоль Віньялс, віцепрезидент з досліджень і керівник напрямку глибокого навчання в Google DeepMind, а також співкерівник проєкту Gemini, назвав реліз особистою віхою, зазначивши, що демо працювало настільки швидко, що довелося сповільнити відео, щоб його можна було переглянути.

Паралельно Google вдосконалила лінійку Gemini 2.5 новими можливостями. Компанія запустила Gemini 2.5 Flash із бюджетами мислення, надаючи розробникам безпрецедентний контроль над обсягом міркувань, які виконує ШІ. Ця функція дозволяє користувачам балансувати між якістю, затримкою та вартістю, встановлюючи ліміт токенів (до 24 576 токенів) для процесу міркування моделі.

Google також розширює бюджети мислення на Gemini 2.5 Pro, загальна доступність очікується протягом найближчих тижнів. Додатково компанія додала нативну підтримку SDK для визначень Model Context Protocol (MCP) в API Gemini, що спрощує інтеграцію з open-source інструментами та розробку агентних застосунків.

У сукупності ці досягнення демонструють прагнення Google зробити ШІ ефективнішим, керованішим і доступнішим для розробників, зберігаючи високі стандарти продуктивності.

Source:

Latest News