Google DeepMind arbejder på at forvandle sin mest avancerede multimodale grundmodel, Gemini 2.5 Pro, til det, de kalder en 'verdensmodel' – et AI-system, der kan forstå og simulere aspekter af den virkelige verden på måder, der efterligner menneskets kognitive processer.
Dette ambitiøse initiativ blev annonceret på Google I/O 2025 og har til formål at skabe en AI, der kan lægge planer og forestille sig nye oplevelser ved at modellere, hvordan verden fungerer. Ifølge DeepMinds administrerende direktør, Demis Hassabis, repræsenterer denne evne et grundlæggende fremskridt inden for kunstig intelligens, der rækker ud over simpel klassificering og forudsigelse.
"Derfor arbejder vi på at udvide vores bedste multimodale grundmodel, Gemini 2.5 Pro, så den bliver en 'verdensmodel', der kan lægge planer og forestille sig nye oplevelser ved at forstå og simulere aspekter af verden, præcis som hjernen gør," forklarede Hassabis i et nyligt blogindlæg.
Google ser allerede tidlige tegn på disse verdensmodellerende evner i Geminis evne til at repræsentere og simulere naturlige miljøer, forstå intuitiv fysik gennem Veo-modellen samt lære robotter at gribe objekter og følge instruktioner via Gemini Robotics.
Virksomheden beskriver denne udvikling som et afgørende skridt mod at skabe en "universel AI-assistent" – et intelligent system, der forstår kontekst og kan planlægge og handle på tværs af enhver enhed. Googles ultimative vision er at omdanne Gemini-appen til en assistent, der kan udføre daglige opgaver, håndtere administrativt arbejde og give personlige anbefalinger.
Denne verdensmodel bygger videre på Gemini 2.5 Pros allerede imponerende ræsonnementsevner. Modellen er i øjeblikket førende på benchmarks for komplekse opgaver inden for matematik, naturvidenskab og kodning, og indtager førstepladsen på LMArena- og WebDev Arena-leaderboards, som måler menneskers præferencer for AI-interaktioner.
Google planlægger at integrere disse verdensmodel-evner med teknologier fra Project Mariner og Project Astra, der henholdsvis fokuserer på multitasking og visuel forståelse. Den forbedrede Gemini 2.5 Pro forventes at blive bredt tilgængelig i juni 2025, efter den nuværende forhåndsvisningsfase.