A Google DeepMind está a trabalhar para transformar o seu modelo fundacional multimodal mais avançado, o Gemini 2.5 Pro, naquilo a que chama um 'modelo do mundo' – um sistema de IA capaz de compreender e simular aspetos do mundo real de formas que imitam os processos cognitivos humanos.
Anunciada na Google I/O 2025, esta iniciativa ambiciosa visa criar uma IA capaz de planear e imaginar novas experiências, modelando o funcionamento do mundo. Segundo Demis Hassabis, CEO da DeepMind, esta capacidade representa um avanço fundamental na inteligência artificial, indo além da simples classificação e previsão.
"É por isso que estamos a trabalhar para expandir o nosso melhor modelo fundacional multimodal, o Gemini 2.5 Pro, para se tornar um 'modelo do mundo' que pode planear e imaginar novas experiências, compreendendo e simulando aspetos do mundo, tal como o cérebro faz", explicou Hassabis numa publicação recente no blogue.
A Google já observa sinais iniciais destas capacidades de modelação do mundo a emergirem na aptidão do Gemini para representar e simular ambientes naturais, compreender física intuitiva através do seu modelo Veo, e ensinar robôs a agarrar objetos e seguir instruções com o Gemini Robotics.
A empresa descreve este desenvolvimento como um passo crítico para criar um "assistente universal de IA" – um sistema inteligente que compreende o contexto e é capaz de planear e agir em qualquer dispositivo. A visão final da Google é transformar a aplicação Gemini num assistente capaz de realizar tarefas do quotidiano, tratar de trabalhos administrativos e fornecer recomendações personalizadas.
Esta capacidade de modelação do mundo baseia-se nas já impressionantes competências de raciocínio do Gemini 2.5 Pro. Atualmente, o modelo lidera benchmarks em tarefas complexas de matemática, ciência e programação, ocupando o primeiro lugar nos rankings LMArena e WebDev Arena, que avaliam as preferências humanas nas interações com IA.
A Google planeia integrar estas capacidades de modelação do mundo com tecnologias dos Projectos Mariner e Astra, que se concentram respetivamente em multitarefa e compreensão visual. Prevê-se que o Gemini 2.5 Pro melhorado fique disponível de forma geral em junho de 2025, após a fase de pré-visualização atualmente em curso.