Google transformira svoj najnapredniji AI model, Gemini 2.5 Pro, u ono što naziva 'modelom svijeta' – sustav koji može razumjeti i simulirati aspekte stvarnosti na načine koji oponašaju funkciju ljudskog mozga.
Prema najnovijim najavama Google DeepMinda na Google I/O 2025, ova mogućnost modela svijeta omogućit će Geminiju da planira i zamišlja nova iskustva razumijevanjem i simuliranjem aspekata svijeta. To predstavlja veliku evoluciju u sposobnosti umjetne inteligencije da rezonira o složenim okruženjima i interagira s njima.
"Zato radimo na tome da naš najbolji multimodalni temeljni model, Gemini 2.5 Pro, postane 'model svijeta' koji može planirati i zamišljati nova iskustva razumijevanjem i simuliranjem aspekata svijeta, baš kao što to čini mozak," navodi Google na svom službenom blogu.
Pristup modela svijeta temelji se na Googleovim opsežnim istraživanjima u obučavanju AI agenata za savladavanje složenih igara i stvaranje interaktivnih simulacija. Dokazi tih sposobnosti već se pojavljuju u mogućnosti Geminija da koristi znanje o svijetu i zaključivanje za prikazivanje prirodnih okruženja, razumijevanje intuitivne fizike te podučavanje robota da slijede upute i prilagođavaju se u hodu.
Središnji dio ove evolucije je nova značajka Deep Think, eksperimentalni način poboljšanog zaključivanja za Gemini 2.5 Pro. Deep Think omogućuje modelu razmatranje više hipoteza prije odgovora, što značajno poboljšava rezultate na složenim zadacima iz matematike i programiranja. Značajka je već postigla impresivne rezultate na zahtjevnim testovima poput matematičkog natjecanja USAMO 2025 i LiveCodeBench za programiranje.
Gemini 2.5 Pro s Deep Thinkom trenutno je dostupan pouzdanim testerima putem Gemini API-ja, dok Google provodi dodatne sigurnosne procjene prije šireg izdanja. U međuvremenu, standardni model Gemini 2.5 Pro očekuje se da će biti općenito dostupan do kraja lipnja 2025., nakon ranijeg izdanja Geminija 2.5 Flash.
Ovo napredovanje prema modeliranju svijeta dio je šire Googleove vizije stvaranja univerzalnog AI asistenta koji može razumjeti kontekst, učinkovito planirati i djelovati na različitim uređajima – što će u konačnici transformirati način na koji ljudi komuniciraju s AI sustavima.