Mens tekst-til-video AI-modeller som OpenAI's Sora har opnået imponerende resultater inden for videogenerering, har de haft svært ved at skabe realistiske metamorfiske videoer – altså videoer, der viser gradvise transformationer som blomster, der springer ud, eller bygninger under opførelse. Disse processer er særligt udfordrende for AI at simulere, fordi de kræver en dyb forståelse af virkelighedens fysik og kan variere meget i udseende.
Den nyudviklede MagicTime-model tackler denne begrænsning ved at lære fysisk viden direkte fra time-lapse-videoer. Under ledelse af ph.d.-studerende Jinfa Huang og professor Jiebo Luo fra Rochesters Institut for Datalogi trænede det internationale forskerhold deres model på et højkvalitetsdatasæt bestående af over 2.000 omhyggeligt beskrevne time-lapse-videoer for at indfange nuancerne i fysiske transformationer.
Den nuværende open source-version genererer to sekunder lange klip i 512×512 pixel opløsning, mens en tilhørende diffusion-transformer-arkitektur udvider dette til ti sekunders videoer. MagicTime kan simulere forskellige metamorfiske processer, herunder biologisk vækst, byggeprojekter og endda kulinariske transformationer som brødbagning.
"MagicTime er et skridt mod AI, der bedre kan simulere de fysiske, kemiske, biologiske eller sociale egenskaber ved verden omkring os," forklarer Huang. Forskerne ser store videnskabelige anvendelser ud over underholdning og foreslår, at "biologer kunne bruge generative videoer til at fremskynde den indledende udforskning af idéer" og samtidig reducere behovet for fysiske eksperimenter.
Teknologiens betydning rækker på tværs af flere felter. I undervisningen kan den skabe dynamiske visualiseringer af komplekse processer, der er svære at observere i realtid. For indholdsskabere og underholdningsbranchen tilbyder den nye værktøjer til special effects og historiefortælling. Forskere kan bruge den til at modellere og forudsige fysiske fænomener, hvilket potentielt kan accelerere forskning inden for alt fra biologi til materialeforskning.
I takt med at AI i stigende grad integreres med fysisk modellering, illustrerer MagicTime, hvordan indlejring af domænespecifik viden i generative modeller kan skabe resultater, der ikke kun er visuelt overbevisende, men også videnskabeligt meningsfulde. Forskningen er offentliggjort i IEEE Transactions on Pattern Analysis and Machine Intelligence.