Iako su AI modeli za generiranje videa iz teksta poput OpenAI-jeva Sora ostvarili impresivan napredak, još uvijek se suočavaju s izazovima u stvaranju realističnih metamorfnih videa – onih koji prikazuju postupne transformacije poput cvjetanja biljaka ili izgradnje zgrada. Takve procese posebno je teško simulirati umjetnoj inteligenciji jer zahtijevaju duboko razumijevanje fizike stvarnog svijeta i mogu se znatno razlikovati u izgledu.
Novi MagicTime model rješava ovo ograničenje učenjem fizičkih zakonitosti izravno iz time-lapse videa. Pod vodstvom doktoranda Jinfa Huanga i profesora Jieba Lua s Odsjeka za računalne znanosti Sveučilišta Rochester, međunarodni istraživački tim trenirao je svoj model na visokokvalitetnom skupu podataka s više od 2.000 pažljivo opisanih time-lapse videa kako bi uhvatio nijanse fizičkih transformacija.
Trenutna open-source verzija generira isječke u trajanju od dvije sekunde u rezoluciji 512×512 piksela, dok popratna difuzijsko-transformerska arhitektura omogućuje generiranje videa do deset sekundi. MagicTime može simulirati razne metamorfne procese, uključujući biološki rast, građevinske projekte, pa čak i kulinarske transformacije poput pečenja kruha.
"MagicTime je korak prema AI-u koji može bolje simulirati fizička, kemijska, biološka ili društvena svojstva svijeta oko nas", objašnjava Huang. Istraživači predviđaju značajne znanstvene primjene izvan zabave, sugerirajući da bi "biolozi mogli koristiti generativne videe za ubrzavanje preliminarnih istraživanja ideja" i smanjenje potrebe za fizičkim eksperimentima.
Implikacije ove tehnologije protežu se na više područja. U obrazovanju bi mogla omogućiti dinamične vizualizacije složenih procesa koje je teško promatrati u stvarnom vremenu. Za kreatore sadržaja i industriju zabave nudi nove alate za specijalne efekte i pripovijedanje. Znanstvenici bi je mogli koristiti za modeliranje i predviđanje fizičkih pojava, što bi potencijalno ubrzalo istraživanja u područjima od biologije do znanosti o materijalima.
Kako se AI sve dublje integrira s modeliranjem fizičkih procesa, MagicTime pokazuje kako ugrađivanje domenskih znanja u generativne modele može rezultirati ishodima koji su ne samo vizualno uvjerljivi, već i znanstveno relevantni. Istraživanje je objavljeno u časopisu IEEE Transactions on Pattern Analysis and Machine Intelligence.