Google er i gang med at transformere sin mest avancerede AI-model, Gemini 2.5 Pro, til det, virksomheden kalder en 'verdensmodel' – et system, der kan forstå og simulere aspekter af virkeligheden på måder, der spejler menneskets hjernefunktion.
Ifølge Google DeepMinds seneste udmeldinger ved Google I/O 2025 vil denne verdensmodel-evne gøre det muligt for Gemini at lægge planer og forestille sig nye oplevelser ved at forstå og simulere aspekter af verden. Det repræsenterer en markant udvikling i AI's evne til at ræsonnere om og interagere med komplekse miljøer.
"Derfor arbejder vi på at udvide vores bedste multimodale fundamentmodel, Gemini 2.5 Pro, til at blive en 'verdensmodel', der kan lægge planer og forestille sig nye oplevelser ved at forstå og simulere aspekter af verden, præcis som hjernen gør," udtaler Google i sit officielle blogindlæg.
Verdensmodel-tilgangen bygger på Googles omfattende forskning i at træne AI-agenter til at mestre komplekse spil og skabe interaktive simulationer. Beviser på disse evner ses allerede i Geminis evne til at bruge verdensviden og ræsonnement til at repræsentere naturlige miljøer, forstå intuitiv fysik samt lære robotter at følge instruktioner og tilpasse sig i realtid.
Centralt i denne udvikling står den nye Deep Think-funktion, en eksperimentel forbedret ræsonnementstilstand for Gemini 2.5 Pro. Deep Think gør det muligt for modellen at overveje flere hypoteser, før den svarer, hvilket markant forbedrer præstationen på komplekse matematik- og kodningsopgaver. Funktionen har allerede opnået imponerende resultater på krævende benchmarks som 2025 USAMO-matematikkonkurrencen og LiveCodeBench for kodning.
Gemini 2.5 Pro med Deep Think er i øjeblikket tilgængelig for betroede testere via Gemini API, mens Google gennemfører yderligere sikkerhedsvurderinger før bredere udrulning. Samtidig forventes den almindelige Gemini 2.5 Pro-model at blive bredt tilgængelig i slutningen af juni 2025, efter den tidligere lancering af Gemini 2.5 Flash.
Denne udvikling mod verdensmodellering er en del af Googles bredere vision om at skabe en universel AI-assistent, der kan forstå kontekst, planlægge effektivt og handle på tværs af enheder – og i sidste ende transformere måden, mennesker interagerer med AI-systemer på.