Google håller på att omvandla sin mest avancerade AI-modell, Gemini 2.5 Pro, till det företaget kallar en 'världsmodell' – ett system som kan förstå och simulera aspekter av verkligheten på sätt som efterliknar hjärnans funktion.
Enligt Google DeepMinds senaste tillkännagivanden på Google I/O 2025 kommer denna världsmodellkapacitet att göra det möjligt för Gemini att planera och föreställa sig nya upplevelser genom att förstå och simulera delar av världen. Detta innebär ett stort steg framåt för AI:s förmåga att resonera kring och interagera med komplexa miljöer.
"Det är därför vi arbetar för att utöka vår bästa multimodala grundmodell, Gemini 2.5 Pro, till att bli en 'världsmodell' som kan planera och föreställa sig nya upplevelser genom att förstå och simulera aspekter av världen, precis som hjärnan gör," skriver Google i sin officiella blogg.
Världsmodellsansatsen bygger vidare på Googles omfattande forskning kring att träna AI-agenter att bemästra komplexa spel och skapa interaktiva simuleringar. Bevis på dessa förmågor syns redan i Geminis kapacitet att använda världskunskap och resonemang för att representera naturliga miljöer, förstå intuitiv fysik samt lära robotar att följa instruktioner och anpassa sig i realtid.
Centralt i denna utveckling är den nya Deep Think-funktionen, ett experimentellt förbättrat resonemangsläge för Gemini 2.5 Pro. Deep Think gör det möjligt för modellen att överväga flera hypoteser innan den svarar, vilket avsevärt förbättrar prestandan vid komplexa matematik- och kodningsuppgifter. Funktionen har redan uppnått imponerande resultat på utmanande test, såsom 2025 års USAMO-mattetävling och LiveCodeBench för kodning.
Gemini 2.5 Pro med Deep Think är för närvarande tillgänglig för betrodda testare via Gemini API, medan Google genomför ytterligare säkerhetsutvärderingar innan en bredare lansering. Samtidigt förväntas den ordinarie Gemini 2.5 Pro-modellen bli allmänt tillgänglig i slutet av juni 2025, efter det tidigare släppet av Gemini 2.5 Flash.
Denna utveckling mot världsmodellering är en del av Googles bredare vision att skapa en universell AI-assistent som kan förstå kontext, planera effektivt och agera över olika enheter – och därmed förändra hur människor interagerar med AI-system.