Zatímco AI modely pro převod textu na video, jako je Sora od OpenAI, dosáhly působivých výsledků v generování videí, narážely na obtíže při tvorbě realistických metamorfních videí – tedy záznamů postupných proměn, jako je rozkvétání květin nebo stavba budov. Tyto procesy jsou pro AI obzvlášť náročné na simulaci, protože vyžadují hluboké pochopení reálné fyziky a mohou mít velmi různorodý vzhled.
Nově vyvinutý model MagicTime tuto slabinu překonává tím, že se fyzikální znalosti učí přímo z časosběrných videí. Mezinárodní tým vedený doktorandem Jinfa Huangem a profesorem Jiebo Luo z katedry informatiky University of Rochester trénoval svůj model na vysoce kvalitní databázi více než 2 000 pečlivě okomentovaných časosběrných videí, aby zachytil nuance fyzikálních proměn.
Aktuální open-source verze modelu generuje dvousekundové klipy v rozlišení 512×512 pixelů, přičemž doprovodná architektura založená na difuzi a transformerech umožňuje prodloužení až na desetisekundová videa. MagicTime dokáže simulovat různé metamorfní procesy, včetně biologického růstu, stavebních projektů nebo dokonce kulinářských proměn, jako je pečení chleba.
„MagicTime je krokem k AI, která dokáže lépe simulovat fyzikální, chemické, biologické či sociální vlastnosti světa kolem nás,“ vysvětluje Huang. Výzkumníci vidí významné vědecké využití i mimo oblast zábavy a naznačují, že „biologové by mohli generativní video využít k rychlejšímu předběžnému zkoumání nápadů“ a zároveň snížit potřebu fyzických experimentů.
Dopad této technologie zasahuje do mnoha oblastí. Ve vzdělávání může vytvářet dynamické vizualizace složitých procesů, které je obtížné pozorovat v reálném čase. Tvůrcům obsahu a zábavnímu průmyslu nabízí nové nástroje pro speciální efekty a vyprávění příběhů. Vědci ji mohou využít k modelování a predikci fyzikálních jevů, což může urychlit výzkum v oborech od biologie po materiálové vědy.
Jak se AI stále více propojuje s fyzikálním modelováním, MagicTime ukazuje, že začlenění oborově specifických znalostí do generativních modelů může vést k výsledkům, které jsou nejen vizuálně působivé, ale i vědecky hodnotné. Výzkum byl publikován v časopise IEEE Transactions on Pattern Analysis and Machine Intelligence.