Google DeepMind está trabajando para transformar su modelo fundacional multimodal más avanzado, Gemini 2.5 Pro, en lo que denomina un 'modelo del mundo': un sistema de inteligencia artificial capaz de comprender y simular aspectos del mundo real de una manera que imita los procesos cognitivos humanos.
Anunciada en Google I/O 2025, esta ambiciosa iniciativa pretende crear una IA capaz de planificar e imaginar nuevas experiencias mediante la modelización de cómo funciona el mundo. Según Demis Hassabis, CEO de DeepMind, esta capacidad representa un avance fundamental en inteligencia artificial que va más allá de la simple clasificación y predicción.
"Por eso estamos trabajando para ampliar nuestro mejor modelo fundacional multimodal, Gemini 2.5 Pro, para convertirlo en un 'modelo del mundo' que pueda planificar e imaginar nuevas experiencias comprendiendo y simulando aspectos del mundo, tal y como lo hace el cerebro", explicó Hassabis en una reciente entrada de blog.
Google ya observa indicios iniciales de estas capacidades de modelado del mundo en la habilidad de Gemini para representar y simular entornos naturales, comprender la física intuitiva a través de su modelo Veo, y enseñar a los robots a agarrar objetos y seguir instrucciones mediante Gemini Robotics.
La compañía describe este desarrollo como un paso crucial hacia la creación de un "asistente de IA universal": un sistema inteligente que entiende el contexto y puede planificar y actuar en cualquier dispositivo. La visión final de Google es transformar la aplicación Gemini en un asistente capaz de realizar tareas cotidianas, gestionar trabajos administrativos y ofrecer recomendaciones personalizadas.
Esta capacidad de modelo del mundo se apoya en las ya impresionantes habilidades de razonamiento de Gemini 2.5 Pro. Actualmente, el modelo lidera los benchmarks en tareas complejas de matemáticas, ciencia y programación, y ocupa el primer puesto en los rankings de LMArena y WebDev Arena, que miden las preferencias humanas en las interacciones con IA.
Google planea integrar estas capacidades de modelo del mundo con tecnologías de Project Mariner y Project Astra, centradas respectivamente en la multitarea y la comprensión visual. Se espera que la versión mejorada de Gemini 2.5 Pro esté disponible de forma general en junio de 2025, tras su actual fase de vista previa.