Попри значні досягнення AI-моделей для генерації відео за текстом, таких як Sora від OpenAI, вони досі мали труднощі з реалістичним відтворенням метаморфічних процесів — поступових змін, як-от розквітання квітів чи будівництво споруд. Такі процеси особливо складні для моделювання штучним інтелектом, оскільки вимагають глибокого розуміння фізики реального світу та можуть суттєво відрізнятися за виглядом.
Нова модель MagicTime долає ці обмеження, навчаючись фізичним закономірностям безпосередньо з таймлапс-відео. Під керівництвом аспіранта Цзіньфа Хуана та професора Цзєбо Луо з кафедри комп’ютерних наук Університету Рочестера міжнародна команда дослідників навчила модель на високоякісному датасеті з понад 2000 ретельно підписаних таймлапс-відео, щоб зафіксувати всі нюанси фізичних трансформацій.
Поточна open-source версія MagicTime генерує двосекундні кліпи з роздільною здатністю 512×512 пікселів, а супровідна дифузійно-трансформерна архітектура дозволяє розширити тривалість відео до десяти секунд. MagicTime здатна моделювати різноманітні метаморфічні процеси: від біологічного росту й будівництва до кулінарних перетворень, наприклад, випікання хліба.
«MagicTime — це крок до AI, який краще симулює фізичні, хімічні, біологічні чи соціальні властивості навколишнього світу», — пояснює Хуан. Дослідники бачать значний науковий потенціал технології поза межами розваг, зазначаючи, що «біологи можуть використовувати генеративне відео для прискорення попереднього дослідження ідей», зменшуючи потребу у фізичних експериментах.
Застосування технології охоплює багато сфер. В освіті вона може забезпечити динамічну візуалізацію складних процесів, які важко спостерігати в реальному часі. Для творців контенту та індустрії розваг це — нові інструменти для спецефектів і сторітелінгу. Науковці можуть використовувати MagicTime для моделювання та прогнозування фізичних явищ, що потенційно прискорить дослідження у біології, матеріалознавстві та інших галузях.
Із подальшою інтеграцією AI у фізичне моделювання MagicTime демонструє, як вбудовування галузевих знань у генеративні моделі дозволяє отримувати результати, які є не лише візуально переконливими, а й науково значущими. Дослідження було опубліковано в журналі IEEE Transactions on Pattern Analysis and Machine Intelligence.