Google DeepMind travaille à transformer son modèle fondamental multimodal le plus avancé, Gemini 2.5 Pro, en ce qu’il appelle un « modèle du monde » — un système d’IA capable de comprendre et de simuler des aspects du monde réel d’une façon qui imite les processus cognitifs humains.
Annoncé lors de Google I/O 2025, cette initiative ambitieuse vise à créer une IA capable d’élaborer des plans et d’imaginer de nouvelles expériences en modélisant le fonctionnement du monde. Selon Demis Hassabis, PDG de DeepMind, cette capacité représente une avancée fondamentale en intelligence artificielle qui va bien au-delà de la simple classification et prédiction.
« C’est pourquoi nous travaillons à étendre notre meilleur modèle fondamental multimodal, Gemini 2.5 Pro, pour qu’il devienne un “modèle du monde” capable d’élaborer des plans et d’imaginer de nouvelles expériences en comprenant et en simulant des aspects du monde, tout comme le cerveau le fait », a expliqué Hassabis dans un récent billet de blogue.
Google observe déjà des signes précoces de ces capacités de modélisation du monde dans l’aptitude de Gemini à représenter et simuler des environnements naturels, à comprendre la physique intuitive grâce à son modèle Veo, et à enseigner à des robots à saisir des objets et à suivre des instructions via Gemini Robotics.
L’entreprise décrit ce développement comme une étape clé vers la création d’un « assistant IA universel » — un système intelligent qui comprend le contexte, peut planifier et agir sur n’importe quel appareil. L’objectif ultime de Google est de transformer l’application Gemini en un assistant capable d’effectuer des tâches quotidiennes, de gérer le travail administratif et de fournir des recommandations personnalisées.
Cette capacité de modélisation du monde s’appuie sur les impressionnantes aptitudes de raisonnement déjà démontrées par Gemini 2.5 Pro. Le modèle se classe actuellement en tête des tests de référence pour des tâches complexes en mathématiques, en sciences et en programmation, et occupe la première place sur les palmarès LMArena et WebDev Arena, qui évaluent les préférences humaines pour les interactions avec l’IA.
Google prévoit d’intégrer ces capacités de modélisation du monde avec les technologies issues des projets Mariner et Astra, axés respectivement sur le multitâche et la compréhension visuelle. La version améliorée de Gemini 2.5 Pro devrait être disponible de façon générale en juin 2025, à la suite de sa phase d’aperçu actuelle.