Google DeepMind lucrează la transformarea celui mai avansat model multimodal de bază al său, Gemini 2.5 Pro, într-un aşa-numit „model al lumii” – un sistem AI capabil să înțeleagă și să simuleze aspecte ale lumii reale într-un mod care imită procesele cognitive umane.
Anunțată la Google I/O 2025, această inițiativă ambițioasă își propune să creeze o inteligență artificială care poate face planuri și imagina experiențe noi, modelând modul în care funcționează lumea. Potrivit CEO-ului DeepMind, Demis Hassabis, această capacitate reprezintă un progres fundamental în inteligența artificială, depășind simpla clasificare și predicție.
„De aceea lucrăm pentru a extinde cel mai bun model multimodal de bază al nostru, Gemini 2.5 Pro, pentru a deveni un «model al lumii» care poate face planuri și imagina experiențe noi, înțelegând și simulând aspecte ale lumii, exact cum face creierul”, a explicat Hassabis într-o postare recentă pe blog.
Google observă deja primele dovezi ale acestor capacități de modelare a lumii în abilitatea Gemini de a reprezenta și simula medii naturale, de a înțelege fizica intuitivă prin modelul Veo și de a învăța roboții să apuce obiecte și să urmeze instrucțiuni prin Gemini Robotics.
Compania descrie această dezvoltare ca fiind un pas esențial către crearea unui „asistent AI universal” – un sistem inteligent care înțelege contextul, poate planifica și acționa pe orice dispozitiv. Viziunea finală a Google este de a transforma aplicația Gemini într-un asistent capabil să îndeplinească sarcini cotidiene, să gestioneze activități administrative și să ofere recomandări personalizate.
Această capacitate de modelare a lumii se bazează pe abilitățile deja impresionante de raționament ale Gemini 2.5 Pro. Modelul conduce în prezent clasamentele pentru sarcini complexe de matematică, știință și programare și ocupă primul loc pe leaderboard-urile LMArena și WebDev Arena, care măsoară preferințele umane pentru interacțiunile cu AI-ul.
Google intenționează să integreze aceste capacități de modelare a lumii cu tehnologiile din Project Mariner și Project Astra, axate pe multitasking și înțelegere vizuală. Se așteaptă ca Gemini 2.5 Pro îmbunătățit să fie disponibil pe scară largă în iunie 2025, după faza actuală de previzualizare.