Google está dando un paso significativo en inteligencia artificial al ampliar Gemini 2.5 Pro para convertirlo en un completo 'modelo del mundo' capaz de comprender y simular aspectos de la realidad de una manera que refleja la cognición humana.
Los modelos del mundo representan un cambio fundamental en las capacidades de la IA, yendo más allá del procesamiento del lenguaje para crear representaciones internas de entornos físicos. El concepto se centra en cómo los agentes inteligentes pueden comprender y modelar entornos interactivos externos para mejorar sus habilidades de toma de decisiones y planificación. Inicialmente desarrollados para modelar interacciones físicas de bajo nivel, los modelos del mundo se han expandido hacia la simulación del mundo real y la generación de entornos complejos y realistas.
Estos sofisticados sistemas de IA simulan entornos reales aprovechando extensos conjuntos de datos multimodales que incluyen imágenes, audio, vídeo y texto. Esta capacidad permite a la IA predecir los resultados de diversas acciones, mejorando su razonamiento y planificación. Los modelos del mundo cierran eficazmente la brecha entre los datos en bruto y los conocimientos accionables, facilitando interacciones más intuitivas entre las máquinas y sus entornos.
Google ha anunciado que está trabajando para ampliar Gemini 2.5 Pro y convertirlo en un modelo del mundo "capaz de hacer planes e imaginar nuevas experiencias comprendiendo y simulando aspectos del mundo, igual que lo hace el cerebro". Este desarrollo supone un avance importante en la estrategia de IA de Google, con el potencial de permitir una resolución de problemas más sofisticada en diversos ámbitos.
Además de esta ambiciosa evolución, Google ha compartido varias novedades sobre su familia de modelos Gemini. Gemini 2.5 Flash ya está disponible para todos en la app de Gemini, y una versión actualizada estará disponible de forma general en Google AI Studio para desarrolladores y en Vertex AI para empresas a principios de junio, seguida de Gemini 2.5 Pro.
Gemini 2.5 Pro se mejorará con Deep Think, un modo experimental de razonamiento diseñado para tareas altamente complejas de matemáticas y programación. Google también incorporará nuevas capacidades en ambos modelos, incluyendo avanzadas medidas de seguridad. Su nuevo enfoque de seguridad ha incrementado significativamente la protección frente a ataques indirectos de inyección de prompts durante el uso de herramientas, convirtiendo a la familia Gemini 2.5 en su serie de modelos más segura hasta la fecha.
Estos avances llegan en un momento en que la competencia en el ámbito de la IA se intensifica, con empresas como Nvidia y startups como World Labs trabajando también en tecnología de modelos del mundo. Lo que los grandes modelos de lenguaje son para sistemas como ChatGPT, los modelos del mundo lo son para los simuladores virtuales necesarios para entrenar robots y otros sistemas de IA. Estas herramientas pueden producir entornos y simulaciones 3D que ayudan a los robots a comprender, planificar y navegar mejor por su entorno.
A medida que Google sigue ampliando los límites de las capacidades de la IA, la evolución de Gemini 2.5 Pro hacia un modelo del mundo marca una nueva era en la que la inteligencia artificial no solo puede procesar información, sino también comprender, predecir e interactuar con el mundo de formas cada vez más similares a las humanas.