Embora modelos de IA de texto para vídeo, como o Sora da OpenAI, tenham feito avanços impressionantes na geração de vídeos, eles ainda enfrentam dificuldades para criar vídeos metamórficos realistas — aqueles que mostram transformações graduais, como flores desabrochando ou edifícios em construção. Esses processos são especialmente desafiadores para a IA simular, pois exigem uma compreensão profunda da física do mundo real e podem variar amplamente em aparência.
O modelo MagicTime, recém-desenvolvido, aborda essa limitação ao aprender conhecimentos físicos diretamente de vídeos em time-lapse. Liderada pelo doutorando Jinfa Huang e pelo professor Jiebo Luo, do Departamento de Ciência da Computação de Rochester, a equipe internacional de pesquisadores treinou seu modelo em um conjunto de dados de alta qualidade com mais de 2.000 vídeos em time-lapse meticulosamente legendados para capturar as nuances das transformações físicas.
A versão open-source atual gera clipes de dois segundos em resolução de 512×512 pixels, enquanto uma arquitetura combinando difusão e transformador permite estender para vídeos de até dez segundos. O MagicTime pode simular diversos processos metamórficos, incluindo crescimento biológico, projetos de construção e até transformações culinárias, como o crescimento do pão durante o forno.
"O MagicTime é um passo em direção a uma IA capaz de simular melhor as propriedades físicas, químicas, biológicas ou sociais do mundo ao nosso redor", explica Huang. Os pesquisadores vislumbram aplicações científicas significativas além do entretenimento, sugerindo que "biólogos poderiam usar vídeos generativos para acelerar a exploração preliminar de ideias", reduzindo a necessidade de experimentos físicos.
As implicações da tecnologia se estendem por diversos campos. Na educação, pode criar visualizações dinâmicas de processos complexos difíceis de serem observados em tempo real. Para criadores de conteúdo e a indústria do entretenimento, oferece novas ferramentas para efeitos especiais e narrativa. Cientistas podem utilizá-la para modelar e prever fenômenos físicos, potencialmente acelerando pesquisas em áreas que vão da biologia à ciência dos materiais.
À medida que a IA se integra cada vez mais à modelagem física, o MagicTime exemplifica como incorporar conhecimento específico de domínio em modelos generativos pode produzir resultados não apenas visualmente impressionantes, mas também cientificamente relevantes. A pesquisa foi publicada no IEEE Transactions on Pattern Analysis and Machine Intelligence.