Google est en train de transformer son modèle d’IA le plus avancé, Gemini 2.5 Pro, en ce qu’il appelle un « modèle du monde » : un système capable de comprendre et de simuler des aspects de la réalité d’une manière qui reflète le fonctionnement du cerveau humain.
Selon les récentes annonces de Google DeepMind lors de la conférence Google I/O 2025, cette capacité de modèle du monde permettra à Gemini d’élaborer des plans et d’imaginer de nouvelles expériences en comprenant et en simulant des aspects du monde. Cela représente une évolution majeure dans la capacité de l’IA à raisonner sur des environnements complexes et à interagir avec eux.
« C’est pourquoi nous travaillons à étendre notre meilleur modèle fondation multimodal, Gemini 2.5 Pro, pour qu’il devienne un ‘modèle du monde’ capable d’élaborer des plans et d’imaginer de nouvelles expériences en comprenant et en simulant des aspects du monde, tout comme le fait le cerveau », a déclaré Google sur son blog officiel.
L’approche du modèle du monde s’appuie sur les recherches approfondies de Google dans l’entraînement d’agents d’IA à maîtriser des jeux complexes et à créer des simulations interactives. Les preuves de ces capacités émergent déjà dans l’aptitude de Gemini à utiliser ses connaissances du monde et son raisonnement pour représenter des environnements naturels, comprendre la physique intuitive et apprendre à des robots à suivre des instructions et à s’adapter en temps réel.
Au cœur de cette évolution se trouve la nouvelle fonctionnalité Deep Think, un mode de raisonnement expérimental amélioré pour Gemini 2.5 Pro. Deep Think permet au modèle de considérer plusieurs hypothèses avant de répondre, ce qui améliore considérablement ses performances sur des tâches complexes de mathématiques et de programmation. Cette fonctionnalité a déjà obtenu des résultats impressionnants sur des benchmarks exigeants tels que le concours de mathématiques USAMO 2025 et LiveCodeBench pour le codage.
Gemini 2.5 Pro avec Deep Think est actuellement disponible pour des testeurs de confiance via l’API Gemini, Google menant des évaluations de sécurité supplémentaires avant un déploiement plus large. Par ailleurs, la version standard de Gemini 2.5 Pro devrait être disponible pour le grand public d’ici fin juin 2025, à la suite de la sortie antérieure de Gemini 2.5 Flash.
Cette avancée vers la modélisation du monde s’inscrit dans la vision plus large de Google de créer un assistant universel d’IA capable de comprendre le contexte, de planifier efficacement et d’agir sur différents appareils — transformant ainsi la manière dont les humains interagissent avec les systèmes d’IA.