Google оголосила про значний прорив для свого флагманського AI-моделя, представивши режим Deep Think для Gemini 2.5 Pro, що знаменує собою великий крок уперед у сфері міркування штучного інтелекту.
Deep Think використовує найсучасніші дослідження у сфері паралельного мислення, дозволяючи моделі одночасно досліджувати та оцінювати кілька потенційних рішень перед формуванням відповіді. Такий підхід імітує роботу людських експертів, які розглядають різні аспекти та гіпотези при вирішенні складних задач.
«Він використовує наші найновіші досягнення у сфері міркування — включно з техніками паралельного мислення — що дає неймовірні результати», — пояснив Деміс Хассабіс, CEO Google DeepMind, під час анонсу на Google I/O 2025.
Новий режим продемонстрував виняткові результати на складних бенчмарках. Він досяг вражаючого результату на Mathematical Olympiad США 2025 року (USAMO), яку вважають одним із найскладніших математичних тестів. Deep Think також лідирує на LiveCodeBench — складному бенчмарку для змагань з програмування, а на MMMU, що перевіряє мультимодальне міркування у різних завданнях, отримав 84%.
Окрім Deep Think, Google суттєво посилила безпеку всієї лінійки Gemini 2.5. Компанія впровадила сучасні механізми захисту від непрямих атак через ін'єкцію підказок — коли шкідливі інструкції вбудовуються у дані, які отримує AI-модель. За словами Google, новий підхід суттєво підвищив рівень захисту Gemini від таких атак під час використання інструментів, зробивши серію 2.5 найбезпечнішою серед моделей компанії.
Google обирає обережну стратегію впровадження Deep Think. «Оскільки ми визначаємо нову межу можливостей із 2.5 Pro DeepThink, ми приділяємо додатковий час для проведення розширених оцінок безпеки та залучення експертів», — зазначили в компанії. Спочатку Deep Think буде доступний лише перевіреним тестувальникам через Gemini API для збору відгуків перед ширшим запуском.
Компанія також анонсувала покращення Gemini 2.5 Flash — більш ефективної моделі, орієнтованої на швидкість і низьку вартість. Оновлена версія використовує на 20-30% менше токенів, забезпечуючи при цьому кращі результати у міркуванні, мультимодальності, програмуванні та роботі з довгим контекстом.