Google DeepMind está trabajando para transformar su modelo fundacional multimodal más avanzado, Gemini 2.5 Pro, en lo que denomina un 'modelo del mundo': un sistema de IA capaz de comprender y simular aspectos del mundo real de formas que imitan los procesos cognitivos humanos.
Anunciada en Google I/O 2025, esta ambiciosa iniciativa busca crear una IA que pueda planificar e imaginar nuevas experiencias mediante la modelación de cómo funciona el mundo. Según Demis Hassabis, CEO de DeepMind, esta capacidad representa un avance fundamental en inteligencia artificial que va más allá de la simple clasificación y predicción.
"Por eso estamos trabajando para ampliar nuestro mejor modelo fundacional multimodal, Gemini 2.5 Pro, para que se convierta en un 'modelo del mundo' capaz de planificar e imaginar nuevas experiencias al comprender y simular aspectos del mundo, tal como lo hace el cerebro", explicó Hassabis en una reciente publicación de blog.
Google ya observa señales tempranas de estas capacidades de modelado del mundo en la habilidad de Gemini para representar y simular entornos naturales, comprender la física intuitiva a través de su modelo Veo, y enseñar a robots a tomar objetos y seguir instrucciones mediante Gemini Robotics.
La empresa describe este desarrollo como un paso crítico hacia la creación de un "asistente de IA universal": un sistema inteligente que entiende el contexto y puede planificar y actuar en cualquier dispositivo. La visión final de Google es transformar la aplicación Gemini en un asistente capaz de realizar tareas cotidianas, gestionar trabajos administrativos y ofrecer recomendaciones personalizadas.
Esta capacidad de modelado del mundo se basa en las ya impresionantes habilidades de razonamiento de Gemini 2.5 Pro. Actualmente, el modelo lidera los benchmarks en tareas complejas de matemáticas, ciencia y programación, y ocupa el primer lugar en los rankings de LMArena y WebDev Arena, que miden las preferencias humanas en interacciones con IA.
Google planea integrar estas capacidades de modelado del mundo con tecnologías de Project Mariner y Project Astra, que se centran respectivamente en la multitarea y la comprensión visual. Se espera que la versión mejorada de Gemini 2.5 Pro esté disponible de manera general en junio de 2025, tras su fase actual de vista previa.