menu
close

MagicTime: AI 모델, 물리학을 학습해 현실적인 변형 영상 생성

컴퓨터 과학자들이 실제 물리 지식을 타임랩스 데이터로부터 학습하는 혁신적인 AI 텍스트-투-비디오 모델 ‘MagicTime’을 개발했다. 2025년 5월 5일 공개된 이 연구는 로체스터 대학교, 베이징 대학교, UC 산타크루즈, 싱가포르 국립대학교 연구진의 협업으로, 물리적 변형을 정밀하게 시뮬레이션하는 변형 영상을 생성하는 데 있어 큰 진전을 이뤘다. 이 기술은 간단한 텍스트 설명만으로도 더욱 현실적인 영상 생성이 가능해져, 과학 시각화, 콘텐츠 제작, 교육 도구 분야에 혁신을 가져올 전망이다.
MagicTime: AI 모델, 물리학을 학습해 현실적인 변형 영상 생성

OpenAI의 Sora와 같은 텍스트-투-비디오 AI 모델이 영상 생성 분야에서 눈부신 발전을 이뤘지만, 꽃이 피거나 건물이 지어지는 등 점진적인 변형 과정을 보여주는 ‘변형 영상’의 현실적 구현에는 한계가 있었다. 이러한 과정은 실제 세계의 물리 법칙에 대한 깊은 이해가 필요하고, 그 형태도 매우 다양하기 때문에 AI가 시뮬레이션하기 특히 어렵다.

새롭게 개발된 MagicTime 모델은 타임랩스 영상을 통해 직접 물리적 지식을 학습함으로써 이러한 한계를 극복했다. 로체스터 대학교 컴퓨터과학과의 진파 황 박사과정생과 루오 지에보 교수 주도로, 국제 공동 연구팀은 2,000개 이상의 정밀하게 캡션이 달린 고품질 타임랩스 영상 데이터셋을 활용해 물리적 변형의 미묘한 차이까지 포착하도록 모델을 훈련시켰다.

현재 공개된 오픈소스 버전은 512×512 픽셀 해상도의 2초 분량 영상을 생성할 수 있으며, 확장된 디퓨전-트랜스포머 아키텍처를 통해 최대 10초 길이의 영상도 가능하다. MagicTime은 생물의 성장, 건설 현장, 빵이 구워지는 요리 과정 등 다양한 변형 과정을 시뮬레이션할 수 있다.

황 연구원은 “MagicTime은 AI가 우리 주변 세계의 물리적, 화학적, 생물학적, 사회적 특성을 더 잘 시뮬레이션할 수 있는 방향으로 나아가는 한 걸음”이라고 설명했다. 연구진은 이 기술이 엔터테인먼트 분야를 넘어 과학 분야에도 큰 응용 가능성이 있다고 내다봤다. “생물학자들은 생성형 영상을 활용해 아이디어의 초기 탐색을 빠르게 진행할 수 있으며, 물리적 실험의 필요성도 줄일 수 있다”고 덧붙였다.

이 기술의 파급 효과는 여러 분야로 확장될 전망이다. 교육 분야에서는 실시간 관찰이 어려운 복잡한 과정을 동적으로 시각화할 수 있고, 콘텐츠 제작자와 엔터테인먼트 업계에는 새로운 특수효과 및 스토리텔링 도구를 제공한다. 과학자들은 이를 활용해 물리 현상을 모델링하고 예측함으로써 생물학에서 재료과학에 이르기까지 다양한 연구 분야의 속도를 높일 수 있다.

AI가 물리적 모델링과 더욱 깊이 융합되는 가운데, MagicTime은 도메인 특화 지식을 생성형 모델에 내재화할 때 시각적으로 뛰어날 뿐 아니라 과학적으로도 의미 있는 결과를 얻을 수 있음을 보여준다. 이 연구는 IEEE Transactions on Pattern Analysis and Machine Intelligence에 게재됐다.

Source: Sciencedaily

Latest News