Alors que les modèles d’IA texte-vers-vidéo comme Sora d’OpenAI ont déjà accompli des progrès remarquables en génération vidéo, ils peinent encore à produire des vidéos métamorphiques réalistes – celles illustrant des transformations progressives, comme l’éclosion d’une fleur ou la construction d’un bâtiment. Ces processus sont particulièrement difficiles à simuler pour l’IA, car ils exigent une compréhension approfondie de la physique réelle et présentent une grande diversité visuelle.
Le nouveau modèle MagicTime surmonte cette limite en apprenant la physique directement à partir de vidéos en accéléré. Dirigée par le doctorant Jinfa Huang et le professeur Jiebo Luo du département d’informatique de Rochester, l’équipe internationale a entraîné son modèle sur un jeu de données de plus de 2 000 vidéos en accéléré soigneusement annotées afin de saisir toutes les subtilités des transformations physiques.
La version open source actuelle génère des clips de deux secondes en résolution 512×512 pixels, tandis qu’une architecture diffusion-transformer associée permet d’étendre la durée à dix secondes. MagicTime peut simuler divers processus métamorphiques, allant de la croissance biologique aux chantiers de construction, en passant par des transformations culinaires comme la cuisson du pain.
« MagicTime est une avancée vers des IA capables de mieux simuler les propriétés physiques, chimiques, biologiques ou sociales du monde qui nous entoure », explique Huang. Les chercheurs envisagent des applications scientifiques majeures au-delà du divertissement, suggérant que « les biologistes pourraient utiliser la génération vidéo pour accélérer l’exploration préliminaire d’idées » tout en réduisant le recours aux expériences physiques.
Les implications de cette technologie s’étendent à de nombreux domaines. Dans l’éducation, elle pourrait permettre de créer des visualisations dynamiques de processus complexes difficiles à observer en temps réel. Pour les créateurs de contenus et l’industrie du divertissement, elle ouvre de nouveaux horizons pour les effets spéciaux et la narration. Les scientifiques pourraient l’utiliser pour modéliser et prédire des phénomènes physiques, accélérant potentiellement la recherche en biologie comme en science des matériaux.
À mesure que l’IA s’intègre plus étroitement à la modélisation physique, MagicTime illustre comment l’intégration de connaissances spécifiques à un domaine dans les modèles génératifs permet d’obtenir des résultats à la fois visuellement impressionnants et scientifiquement pertinents. Les travaux ont été publiés dans la revue IEEE Transactions on Pattern Analysis and Machine Intelligence.