Embora modelos de IA de texto para vídeo como o Sora da OpenAI tenham feito avanços impressionantes na geração de vídeo, têm tido dificuldades em criar vídeos metamórficos realistas – aqueles que mostram transformações graduais como flores a desabrochar ou edifícios em construção. Estes processos são especialmente desafiantes para a IA simular, pois exigem uma compreensão profunda da física do mundo real e podem variar bastante na sua aparência.
O modelo MagicTime, recentemente desenvolvido, aborda esta limitação ao aprender conhecimentos físicos diretamente de vídeos time-lapse. Liderada pelo estudante de doutoramento Jinfa Huang e pelo Professor Jiebo Luo do Departamento de Ciência da Computação de Rochester, a equipa internacional de investigação treinou o seu modelo com um conjunto de dados de alta qualidade composto por mais de 2.000 vídeos time-lapse cuidadosamente legendados, de modo a captar as nuances das transformações físicas.
A versão open-source atual gera clipes de dois segundos com resolução de 512×512 píxeis, enquanto uma arquitetura de difusão-transformer associada permite a criação de vídeos até dez segundos. O MagicTime consegue simular vários processos metamórficos, incluindo crescimento biológico, projetos de construção e até transformações culinárias como o processo de cozedura do pão.
“O MagicTime é um passo em direção a uma IA capaz de simular melhor as propriedades físicas, químicas, biológicas ou sociais do mundo que nos rodeia”, explica Huang. Os investigadores preveem aplicações científicas significativas para além do entretenimento, sugerindo que “biólogos poderiam usar vídeo generativo para acelerar a exploração preliminar de ideias”, reduzindo a necessidade de experiências físicas.
As implicações da tecnologia estendem-se a vários domínios. Na educação, poderá criar visualizações dinâmicas de processos complexos difíceis de observar em tempo real. Para criadores de conteúdos e a indústria do entretenimento, oferece novas ferramentas para efeitos especiais e narrativa. Os cientistas poderão utilizá-la para modelar e prever fenómenos físicos, acelerando potencialmente a investigação em áreas que vão da biologia à ciência dos materiais.
À medida que a IA continua a integrar-se mais profundamente com a modelação física, o MagicTime exemplifica como a incorporação de conhecimento específico de domínio em modelos generativos pode produzir resultados não só visualmente apelativos, mas também cientificamente relevantes. A investigação foi publicada na revista IEEE Transactions on Pattern Analysis and Machine Intelligence.