Google DeepMind arbetar med att omvandla sin mest avancerade multimodala grundmodell, Gemini 2.5 Pro, till vad de kallar en 'världsmodell' – ett AI-system som kan förstå och simulera aspekter av den verkliga världen på sätt som efterliknar mänskliga kognitiva processer.
Detta ambitiösa initiativ, som presenterades på Google I/O 2025, syftar till att skapa en AI som kan planera och föreställa sig nya upplevelser genom att modellera hur världen fungerar. Enligt DeepMinds vd Demis Hassabis representerar denna förmåga ett grundläggande framsteg inom artificiell intelligens som går bortom enkel klassificering och prediktion.
"Det är därför vi arbetar med att utöka vår bästa multimodala grundmodell, Gemini 2.5 Pro, till att bli en 'världsmodell' som kan planera och föreställa sig nya upplevelser genom att förstå och simulera aspekter av världen, precis som hjärnan gör," förklarade Hassabis i ett nyligen publicerat blogginlägg.
Google ser redan tidiga tecken på dessa världssimulerande förmågor i Geminis kapacitet att representera och simulera naturliga miljöer, förstå intuitiv fysik via Veo-modellen samt lära robotar att greppa föremål och följa instruktioner genom Gemini Robotics.
Företaget beskriver denna utveckling som ett avgörande steg mot att skapa en "universell AI-assistent" – ett intelligent system som förstår kontext och kan planera samt agera över olika enheter. Googles slutgiltiga vision är att förvandla Gemini-appen till en assistent som kan utföra vardagliga uppgifter, hantera administrativt arbete och ge personliga rekommendationer.
Denna världssimulerande förmåga bygger vidare på Gemini 2.5 Pros redan imponerande resonemangsförmåga. Modellen leder för närvarande på benchmark-tester för komplex matematik, vetenskap och kodningsuppgifter, och rankas etta på LMArena- och WebDev Arena-listorna, som mäter mänskliga preferenser för AI-interaktioner.
Google planerar att integrera dessa världssimulerande förmågor med teknologier från Project Mariner och Project Astra, som fokuserar på multitasking respektive visuell förståelse. Den förbättrade Gemini 2.5 Pro förväntas bli allmänt tillgänglig i juni 2025, efter den nuvarande förhandsgranskningsfasen.