O Google DeepMind está trabalhando para transformar seu modelo fundamental multimodal mais avançado, o Gemini 2.5 Pro, no que chama de 'modelo do mundo' – um sistema de IA capaz de compreender e simular aspectos do mundo real de formas que imitam os processos cognitivos humanos.
Anunciada no Google I/O 2025, essa iniciativa ambiciosa visa criar uma IA capaz de fazer planos e imaginar novas experiências ao modelar como o mundo funciona. Segundo Demis Hassabis, CEO da DeepMind, essa capacidade representa um avanço fundamental na inteligência artificial, indo além da simples classificação e previsão.
"É por isso que estamos trabalhando para expandir nosso melhor modelo fundamental multimodal, o Gemini 2.5 Pro, para se tornar um 'modelo do mundo' capaz de planejar e imaginar novas experiências ao compreender e simular aspectos do mundo, assim como o cérebro faz", explicou Hassabis em uma postagem recente no blog.
O Google já observa sinais iniciais dessas capacidades de modelagem do mundo emergindo na habilidade do Gemini de representar e simular ambientes naturais, compreender física intuitiva por meio do modelo Veo e ensinar robôs a manipular objetos e seguir instruções com o Gemini Robotics.
A empresa descreve esse desenvolvimento como um passo crítico para criar um "assistente universal de IA" – um sistema inteligente que entende o contexto, pode planejar e agir em qualquer dispositivo. A visão final do Google é transformar o aplicativo Gemini em um assistente capaz de realizar tarefas cotidianas, lidar com trabalhos administrativos e fornecer recomendações personalizadas.
Essa capacidade de modelagem do mundo se baseia nas já impressionantes habilidades de raciocínio do Gemini 2.5 Pro. Atualmente, o modelo lidera benchmarks em tarefas complexas de matemática, ciência e programação, além de ocupar o primeiro lugar nos rankings do LMArena e WebDev Arena, que medem as preferências humanas em interações com IA.
O Google planeja integrar essas capacidades de modelagem do mundo com tecnologias dos projetos Mariner e Astra, que focam, respectivamente, em multitarefas e compreensão visual. Espera-se que o Gemini 2.5 Pro aprimorado esteja disponível de forma geral em junho de 2025, após a fase atual de testes.