Hoewel tekst-naar-video AI-modellen zoals OpenAI’s Sora indrukwekkende vooruitgang hebben geboekt in videogeneratie, worstelen ze met het realistisch weergeven van metamorfosevideo’s – video’s die geleidelijke transformaties tonen, zoals het bloeien van bloemen of de bouw van een gebouw. Zulke processen zijn bijzonder lastig voor AI om te simuleren, omdat ze diepgaande kennis van natuurkundige principes vereisen en sterk kunnen variëren in verschijningsvorm.
Het nieuw ontwikkelde MagicTime-model pakt deze beperking aan door fysieke kennis direct te leren uit time-lapse-video’s. Onder leiding van promovendus Jinfa Huang en professor Jiebo Luo van de afdeling Informatica van de University of Rochester, trainde het internationale onderzoeksteam hun model op een hoogwaardige dataset van meer dan 2.000 zorgvuldig van bijschriften voorziene time-lapse-video’s, om de nuances van fysieke transformaties vast te leggen.
De huidige open-sourceversie genereert clips van twee seconden in een resolutie van 512×512 pixels, terwijl een bijbehorende diffusie-transformerarchitectuur dit uitbreidt tot video’s van tien seconden. MagicTime kan verschillende metamorfoseprocessen simuleren, waaronder biologische groei, bouwprojecten en zelfs culinaire transformaties zoals het bakken van brood.
"MagicTime is een stap richting AI die de fysieke, chemische, biologische of sociale eigenschappen van onze wereld beter kan simuleren," legt Huang uit. De onderzoekers voorzien belangrijke wetenschappelijke toepassingen buiten entertainment, en suggereren dat "biologen generatieve video’s kunnen gebruiken om sneller ideeën te verkennen," waardoor de behoefte aan fysieke experimenten afneemt.
De impact van deze technologie reikt over meerdere domeinen. In het onderwijs kan MagicTime dynamische visualisaties creëren van complexe processen die moeilijk in real-time te observeren zijn. Voor contentmakers en de entertainmentindustrie biedt het nieuwe mogelijkheden voor speciale effecten en storytelling. Wetenschappers kunnen het inzetten om fysieke fenomenen te modelleren en te voorspellen, wat onderzoek in vakgebieden van biologie tot materiaalkunde kan versnellen.
Nu AI steeds dieper verweven raakt met fysische modellering, laat MagicTime zien hoe het integreren van domeinspecifieke kennis in generatieve modellen kan leiden tot resultaten die niet alleen visueel overtuigend, maar ook wetenschappelijk relevant zijn. Het onderzoek werd gepubliceerd in IEEE Transactions on Pattern Analysis and Machine Intelligence.