Google DeepMind sta lavorando per trasformare il suo più avanzato modello multimodale di base, Gemini 2.5 Pro, in quello che definisce un 'modello del mondo' – un sistema di intelligenza artificiale capace di comprendere e simulare aspetti del mondo reale in modi che imitano i processi cognitivi umani.
Annunciata al Google I/O 2025, questa ambiziosa iniziativa mira a creare un’IA in grado di pianificare e immaginare nuove esperienze modellando il funzionamento del mondo. Secondo il CEO di DeepMind, Demis Hassabis, questa capacità rappresenta un progresso fondamentale nell’intelligenza artificiale, andando oltre la semplice classificazione e previsione.
"Ecco perché stiamo lavorando per estendere il nostro miglior modello multimodale di base, Gemini 2.5 Pro, affinché diventi un 'modello del mondo' capace di pianificare e immaginare nuove esperienze comprendendo e simulando aspetti del mondo, proprio come fa il cervello", ha spiegato Hassabis in un recente post sul blog.
Google osserva già le prime evidenze di queste capacità di modellizzazione del mondo nell’abilità di Gemini di rappresentare e simulare ambienti naturali, comprendere la fisica intuitiva tramite il modello Veo, e insegnare ai robot a afferrare oggetti e seguire istruzioni grazie a Gemini Robotics.
L’azienda descrive questo sviluppo come un passo cruciale verso la creazione di un "assistente IA universale" – un sistema intelligente che comprende il contesto e può pianificare e agire su qualsiasi dispositivo. La visione finale di Google è trasformare l’app Gemini in un assistente in grado di svolgere compiti quotidiani, gestire attività amministrative e offrire raccomandazioni personalizzate.
Questa capacità di modello del mondo si basa sulle già notevoli abilità di ragionamento di Gemini 2.5 Pro. Attualmente, il modello è leader nei benchmark per compiti complessi di matematica, scienza e programmazione, e si posiziona al primo posto nelle classifiche LMArena e WebDev Arena, che misurano le preferenze umane nelle interazioni con l’IA.
Google prevede di integrare queste capacità di modello del mondo con le tecnologie di Project Mariner e Project Astra, focalizzate rispettivamente sul multitasking e sulla comprensione visiva. La versione potenziata di Gemini 2.5 Pro dovrebbe essere generalmente disponibile da giugno 2025, dopo l’attuale fase di anteprima.