Ang Google DeepMind ay nagsusumikap na baguhin ang pinaka-advanced nitong multimodal foundation model, ang Gemini 2.5 Pro, upang maging tinatawag nilang 'world model'—isang AI system na kayang umunawa at magsimulate ng mga aspeto ng totoong mundo sa paraang ginagaya ang proseso ng kognisyon ng tao.
Inanunsyo ito sa Google I/O 2025, kung saan layunin ng ambisyosong inisyatibang ito na lumikha ng AI na kayang magplano at mag-imagine ng mga bagong karanasan sa pamamagitan ng pagmomodelo kung paano gumagana ang mundo. Ayon kay DeepMind CEO Demis Hassabis, ang kakayahang ito ay kumakatawan sa isang pundamental na pag-unlad sa artificial intelligence na lampas sa simpleng pag-uuri at prediksyon.
"Ito ang dahilan kung bakit pinapalawak namin ang aming pinakamahusay na multimodal foundation model, ang Gemini 2.5 Pro, upang maging isang 'world model' na kayang magplano at mag-imagine ng mga bagong karanasan sa pamamagitan ng pag-unawa at pagsisimulate ng mga aspeto ng mundo, gaya ng ginagawa ng utak," paliwanag ni Hassabis sa isang kamakailang blog post.
Nakikita na ng Google ang mga unang ebidensya ng kakayahan ng world-modeling sa Gemini, tulad ng kakayahan nitong magrepresenta at magsimulate ng mga natural na kapaligiran, umunawa ng intuitive physics gamit ang Veo model, at turuan ang mga robot na humawak ng mga bagay at sumunod sa mga tagubilin sa pamamagitan ng Gemini Robotics.
Inilalarawan ng kumpanya ang pag-unlad na ito bilang isang kritikal na hakbang patungo sa paglikha ng isang "unibersal na AI assistant"—isang intelligenteng sistema na nakakaunawa ng konteksto at kayang magplano at kumilos sa kahit anong device. Ang panghuling bisyon ng Google ay gawing isang assistant ang Gemini app na kayang magsagawa ng mga pang-araw-araw na gawain, mag-asikaso ng mga administratibong trabaho, at magbigay ng personalisadong rekomendasyon.
Ang kakayahan ng world model na ito ay nakasalalay sa kahanga-hangang reasoning abilities ng Gemini 2.5 Pro. Nangunguna ang modelong ito sa mga benchmark para sa komplikadong math, science, at coding tasks, at nangunguna rin sa LMArena at WebDev Arena leaderboards, na sumusukat sa human preferences para sa AI interactions.
Plano ng Google na pagsamahin ang mga world model capabilities na ito sa mga teknolohiya mula sa Project Mariner at Project Astra, na nakatuon sa multitasking at visual understanding. Inaasahang magiging available sa publiko ang enhanced Gemini 2.5 Pro sa Hunyo 2025, matapos ang kasalukuyang preview phase.