Alors que des modèles d’IA texte-vers-vidéo comme Sora d’OpenAI ont accompli des progrès impressionnants en génération vidéo, ils peinent à créer des vidéos métamorphiques réalistes – celles qui montrent des transformations progressives comme l’éclosion d’une fleur ou la construction d’un bâtiment. Ces processus sont particulièrement difficiles à simuler pour l’IA, car ils exigent une compréhension approfondie de la physique réelle et peuvent varier énormément en apparence.
Le nouveau modèle MagicTime vient pallier cette limite en apprenant les lois physiques directement à partir de vidéos en accéléré. Dirigée par l’étudiant au doctorat Jinfa Huang et le professeur Jiebo Luo du Département d’informatique de Rochester, l’équipe internationale a entraîné son modèle sur un ensemble de plus de 2 000 vidéos en accéléré soigneusement annotées afin de saisir toutes les subtilités des transformations physiques.
La version libre actuelle génère des clips de deux secondes en résolution 512×512 pixels, tandis qu’une architecture diffusion-transformer permet d’étendre la durée à dix secondes. MagicTime peut simuler divers processus métamorphiques, dont la croissance biologique, des chantiers de construction et même des transformations culinaires comme la cuisson du pain.
« MagicTime est une avancée vers une IA capable de mieux simuler les propriétés physiques, chimiques, biologiques ou sociales du monde qui nous entoure », explique Huang. Les chercheurs entrevoient des applications scientifiques majeures au-delà du divertissement, suggérant que « les biologistes pourraient utiliser la vidéo générative pour accélérer l’exploration préliminaire d’idées » tout en réduisant le recours aux expériences physiques.
Les retombées de cette technologie touchent de nombreux domaines. En éducation, elle pourrait offrir des visualisations dynamiques de processus complexes difficiles à observer en temps réel. Pour les créateurs de contenu et l’industrie du divertissement, elle ouvre de nouveaux outils pour les effets spéciaux et la narration. Les scientifiques pourraient l’utiliser pour modéliser et prédire des phénomènes physiques, accélérant potentiellement la recherche dans des domaines allant de la biologie à la science des matériaux.
À mesure que l’IA s’intègre plus profondément à la modélisation physique, MagicTime illustre comment l’intégration de connaissances spécialisées dans des modèles génératifs peut produire des résultats à la fois visuellement saisissants et scientifiquement pertinents. La recherche a été publiée dans la revue IEEE Transactions on Pattern Analysis and Machine Intelligence.