Google franchit une étape importante dans l’intelligence artificielle en faisant évoluer Gemini 2.5 Pro pour en faire un « modèle du monde » complet, capable de comprendre et de simuler des aspects de la réalité d’une façon qui reflète la cognition humaine.
Les modèles du monde représentent un changement fondamental dans les capacités de l’IA, allant au-delà du traitement du langage pour créer des représentations internes d’environnements physiques. Ce concept s’intéresse à la façon dont des agents intelligents peuvent comprendre et modéliser des environnements interactifs externes afin d’améliorer leurs capacités de prise de décision et de planification. Initialement développés pour modéliser des interactions physiques de bas niveau, les modèles du monde se sont étendus à la simulation du monde réel et à la génération d’environnements complexes et réalistes.
Ces systèmes d’IA sophistiqués simulent des environnements réels en exploitant de vastes ensembles de données multimodales, incluant images, audio, vidéo et texte. Cette capacité permet à l’IA de prédire les résultats de diverses actions, améliorant ainsi son raisonnement et sa planification. Les modèles du monde comblent efficacement le fossé entre les données brutes et les connaissances exploitables, facilitant des interactions plus intuitives entre les machines et leur environnement.
Google a annoncé qu’il travaille à faire évoluer Gemini 2.5 Pro en un modèle du monde « capable de faire des plans et d’imaginer de nouvelles expériences en comprenant et en simulant des aspects du monde, tout comme le cerveau le fait ». Cette évolution marque une avancée majeure dans la stratégie d’IA de Google, permettant potentiellement une résolution de problèmes plus sophistiquée dans divers domaines.
En plus de cette évolution ambitieuse, Google a partagé plusieurs mises à jour concernant sa famille de modèles Gemini. Gemini 2.5 Flash est désormais accessible à tous dans l’application Gemini, avec une version mise à jour qui sera offerte à grande échelle dans Google AI Studio pour les développeurs et dans Vertex AI pour les entreprises dès le début juin, suivie de Gemini 2.5 Pro.
Gemini 2.5 Pro sera enrichi de Deep Think, un mode de raisonnement expérimental conçu pour les tâches de mathématiques et de codage très complexes. Google ajoute aussi de nouvelles fonctionnalités aux deux modèles, notamment des mesures de sécurité avancées. Leur nouvelle approche en matière de sécurité a considérablement renforcé la protection contre les attaques indirectes par injection de requêtes lors de l’utilisation d’outils, faisant de la famille Gemini 2.5 leur série de modèles la plus sécuritaire à ce jour.
Ces développements surviennent alors que la concurrence s’intensifie dans le domaine de l’IA, avec des entreprises comme Nvidia et des startups telles que World Labs qui travaillent également sur la technologie des modèles du monde. Ce que les grands modèles de langage représentent pour des systèmes comme ChatGPT, les modèles du monde le sont pour les simulateurs de mondes virtuels nécessaires à l’entraînement des robots et d’autres systèmes d’IA. Ces outils peuvent produire des environnements 3D et des simulations qui aident les robots à mieux comprendre, planifier et naviguer dans leur environnement.
Alors que Google continue de repousser les limites des capacités de l’IA, l’évolution de Gemini 2.5 Pro en modèle du monde marque le début d’une nouvelle ère où l’intelligence artificielle pourra non seulement traiter l’information, mais aussi comprendre, prédire et interagir avec le monde de façon de plus en plus humaine.