OpenAIのSoraのようなテキストから動画生成AIモデルは、動画生成において目覚ましい進歩を遂げてきたが、花の開花や建物の建設といった徐々に変化する「変態動画」のリアルな生成には苦戦していた。こうしたプロセスは、現実世界の物理法則への深い理解が必要であり、見た目も多様であるため、AIにとって特に難しい課題となっていた。
新たに開発されたMagicTimeモデルは、この課題に対し、タイムラプス動画から直接物理知識を学習することでアプローチしている。ロチェスター大学コンピュータサイエンス学科の大学院生Jinfa Huang氏とJiebo Luo教授が主導する国際研究チームは、2,000本以上の精密にキャプション付けされた高品質タイムラプス動画データセットを用いて、物理的変化の微妙なニュアンスを捉えるようモデルを訓練した。
現行のオープンソース版は512×512ピクセル解像度で2秒間のクリップを生成でき、さらに拡張されたディフュージョン・トランスフォーマーアーキテクチャにより10秒間の動画生成も可能となっている。MagicTimeは、生物の成長、建設プロジェクト、パンの焼成といった調理過程など、さまざまな変態プロセスをシミュレートできる。
「MagicTimeは、私たちの周囲の物理的・化学的・生物学的・社会的特性をよりよくシミュレートできるAIへの一歩です」とHuang氏は説明する。研究チームは、エンターテインメント分野を超えた科学的応用にも大きな可能性を見出しており、「生物学者がアイデアの初期検討を加速し、物理実験の必要性を減らすために生成動画を活用できる」と提案している。
この技術の波及効果は多岐にわたる。教育分野では、リアルタイム観察が難しい複雑なプロセスの動的な可視化を実現できる。コンテンツクリエイターやエンターテインメント業界にとっては、新たな特殊効果やストーリーテリングのツールとなる。科学者は物理現象のモデリングや予測に活用し、生物学から材料科学まで幅広い分野の研究加速が期待される。
AIが物理モデリングとより深く統合されていく中、MagicTimeは、分野固有の知識を生成モデルに組み込むことで、視覚的に魅力的であるだけでなく、科学的にも意義のある成果を生み出せることを示している。この研究成果は、IEEE Transactions on Pattern Analysis and Machine Intelligence誌に掲載された。