Google делает значительный шаг вперёд в области искусственного интеллекта, расширяя возможности Gemini 2.5 Pro до полноценной «мировой модели», способной понимать и симулировать аспекты реальности, имитируя человеческое мышление.
Мировые модели представляют собой фундаментальный сдвиг в возможностях ИИ, выходя за рамки обработки языка и создавая внутренние представления физических сред. Концепция мировых моделей фокусируется на том, как интеллектуальные агенты могут понимать и моделировать внешние интерактивные среды для улучшения своих способностей к принятию решений и планированию. Изначально такие модели разрабатывались для описания низкоуровневых физических взаимодействий, но со временем они расширились до симуляции реального мира и генерации сложных, реалистичных сред.
Эти продвинутые ИИ-системы симулируют реальные среды, используя обширные мультимодальные датасеты, включающие изображения, аудио, видео и текст. Такая способность позволяет ИИ предсказывать последствия различных действий, улучшая рассуждение и планирование. Мировые модели эффективно преодолевают разрыв между сырыми данными и практическими инсайтами, способствуя более интуитивному взаимодействию машин с окружающей средой.
Google объявила, что работает над расширением Gemini 2.5 Pro до мировой модели, «которая сможет строить планы и воображать новые сценарии, понимая и симулируя аспекты мира так же, как это делает мозг». Это развитие представляет собой значительный шаг в стратегии ИИ Google и потенциально позволит решать более сложные задачи в различных областях.
В дополнение к этим амбициозным планам Google поделилась рядом обновлений семейства моделей Gemini. Gemini 2.5 Flash теперь доступен всем пользователям в приложении Gemini, а обновлённая версия станет общедоступной в Google AI Studio для разработчиков и в Vertex AI для корпоративных клиентов в начале июня. За ней последует и Gemini 2.5 Pro.
Gemini 2.5 Pro получит поддержку Deep Think — экспериментального режима рассуждений, предназначенного для решения сложных математических и программных задач. Google также внедряет новые возможности в обе модели, включая продвинутые меры безопасности. Новый подход к защите значительно повысил устойчивость к атакам через косвенные инъекции подсказок при использовании инструментов, делая семейство Gemini 2.5 самой защищённой серией моделей компании на сегодняшний день.
Эти нововведения появляются на фоне обостряющейся конкуренции в сфере ИИ: такие компании, как Nvidia, и стартапы вроде World Labs также работают над технологиями мировых моделей. Если большие языковые модели лежат в основе систем вроде ChatGPT, то мировые модели необходимы для виртуальных симуляторов, используемых при обучении роботов и других ИИ-систем. Эти инструменты позволяют создавать 3D-среды и симуляции, помогающие роботам лучше понимать, планировать и ориентироваться в окружающем мире.
По мере того как Google продолжает расширять границы возможностей ИИ, превращение Gemini 2.5 Pro в мировую модель знаменует новую эру, когда искусственный интеллект способен не только обрабатывать информацию, но и понимать, предсказывать и взаимодействовать с миром всё более по-человечески.