Aunque los modelos de IA de texto a vídeo como Sora de OpenAI han logrado avances impresionantes en la generación de vídeos, han tenido dificultades para crear vídeos metamórficos realistas, es decir, aquellos que muestran transformaciones graduales como el florecimiento de una flor o la construcción de un edificio. Estos procesos resultan especialmente complejos para la IA, ya que requieren una comprensión profunda de la física del mundo real y pueden variar mucho en su apariencia.
El modelo MagicTime, recientemente desarrollado, aborda esta limitación aprendiendo conocimientos físicos directamente de vídeos en time-lapse. Liderado por el doctorando Jinfa Huang y el profesor Jiebo Luo del Departamento de Informática de Rochester, el equipo internacional de investigación entrenó su modelo con un conjunto de datos de alta calidad compuesto por más de 2.000 vídeos time-lapse meticulosamente subtitulados para captar los matices de las transformaciones físicas.
La versión actual de código abierto genera clips de dos segundos a una resolución de 512×512 píxeles, mientras que una arquitectura combinada de difusión y transformador amplía esta capacidad a vídeos de hasta diez segundos. MagicTime puede simular diversos procesos metamórficos, incluyendo el crecimiento biológico, proyectos de construcción e incluso transformaciones culinarias como el horneado de pan.
"MagicTime es un paso hacia una IA capaz de simular mejor las propiedades físicas, químicas, biológicas o sociales del mundo que nos rodea", explica Huang. Los investigadores prevén aplicaciones científicas significativas más allá del entretenimiento, sugiriendo que "los biólogos podrían utilizar vídeos generativos para acelerar la exploración preliminar de ideas" y reducir así la necesidad de experimentos físicos.
Las implicaciones de esta tecnología se extienden a múltiples campos. En educación, podría crear visualizaciones dinámicas de procesos complejos difíciles de observar en tiempo real. Para creadores de contenido y la industria del entretenimiento, ofrece nuevas herramientas para efectos especiales y narrativas. Los científicos podrían emplearla para modelar y predecir fenómenos físicos, acelerando potencialmente la investigación en áreas que van desde la biología hasta la ciencia de materiales.
A medida que la IA se integra cada vez más con la modelización física, MagicTime ejemplifica cómo la incorporación de conocimientos específicos de dominio en modelos generativos puede producir resultados no solo visualmente atractivos, sino también significativos desde el punto de vista científico. La investigación ha sido publicada en IEEE Transactions on Pattern Analysis and Machine Intelligence.