Medan AI-modeller för text-till-video, som OpenAI:s Sora, har gjort imponerande framsteg inom videogenerering, har de haft svårt att skapa realistiska metamorfiska videor – alltså sådana som visar gradvisa förändringar, exempelvis blommor som slår ut eller byggnader som uppförs. Dessa processer är särskilt utmanande för AI att simulera eftersom de kräver djup förståelse för verklig fysik och kan variera stort i utseende.
Den nyligen utvecklade modellen MagicTime tar itu med denna begränsning genom att lära sig fysikaliska kunskaper direkt från time-lapse-videor. Under ledning av doktoranden Jinfa Huang och professor Jiebo Luo vid Rochesters datavetenskapsinstitution tränade det internationella forskarlaget sin modell på en högkvalitativ datamängd bestående av över 2 000 noggrant textade time-lapse-videor för att fånga nyanserna i fysiska transformationer.
Den nuvarande open source-versionen genererar två sekunder långa klipp i 512×512 pixlars upplösning, medan en tillhörande diffusion-transformer-arkitektur utökar detta till tio sekunder långa videor. MagicTime kan simulera olika metamorfiska processer, inklusive biologisk tillväxt, byggprojekt och till och med kulinariska transformationer som brödbakning.
"MagicTime är ett steg mot AI som bättre kan simulera de fysiska, kemiska, biologiska eller sociala egenskaperna hos världen omkring oss", förklarar Huang. Forskarna ser stora vetenskapliga tillämpningar bortom underhållning och föreslår att "biologer skulle kunna använda generativa videor för att påskynda den preliminära utforskningen av idéer" och samtidigt minska behovet av fysiska experiment.
Teknikens möjligheter sträcker sig över flera områden. Inom utbildning kan den skapa dynamiska visualiseringar av komplexa processer som är svåra att observera i realtid. För innehållsskapare och underhållningsindustrin erbjuder den nya verktyg för specialeffekter och berättande. Forskare kan använda den för att modellera och förutsäga fysiska fenomen, vilket potentiellt kan påskynda forskning inom allt från biologi till materialvetenskap.
I takt med att AI fortsätter att integreras djupare med fysisk modellering, visar MagicTime hur inbäddning av domänspecifik kunskap i generativa modeller kan ge resultat som inte bara är visuellt övertygande utan även vetenskapligt meningsfulla. Forskningen publicerades i IEEE Transactions on Pattern Analysis and Machine Intelligence.