尽管OpenAI的Sora等文本生成视频AI模型在视频生成领域取得了令人瞩目的进展,但它们在生成逼真的变形视频方面仍面临挑战——例如花朵绽放或建筑施工等渐变过程。这类过程对于AI来说尤其难以模拟,因为它们不仅需要对现实世界物理规律有深刻理解,而且外观变化极为多样。
新开发的MagicTime模型通过直接从延时视频中学习物理知识,突破了这一限制。在罗切斯特大学计算机科学系博士生黄金发和教授罗杰波的带领下,国际研究团队基于2000多段高质量、精细标注的延时视频,对模型进行了训练,从而捕捉物理变化的细微差别。
目前开源版本可生成2秒、分辨率为512×512像素的视频片段,配套的扩散-变换器架构则将时长扩展至10秒。MagicTime能够模拟多种变形过程,包括生物生长、建筑工程,甚至面包烘焙等烹饪变化。
“MagicTime是朝着AI更好地模拟我们周围世界的物理、化学、生物或社会属性迈出的重要一步。”黄金发解释道。研究团队展望,除了娱乐领域外,该技术在科学领域也具有重大应用前景。例如,“生物学家可以利用生成视频加速前期想法探索”,从而减少物理实验的需求。
该技术的影响力横跨多个领域。在教育领域,它可以动态可视化那些难以实时观察的复杂过程;对于内容创作者和娱乐行业,则提供了全新的特效与叙事工具;科学家还可用其建模和预测物理现象,有望加速从生物学到材料科学等领域的研究进程。
随着AI与物理建模的日益深度融合,MagicTime展示了将领域知识嵌入生成模型如何带来既具视觉吸引力又具科学意义的成果。相关研究已发表在《IEEE模式分析与机器智能汇刊》上。