رغم التقدم الكبير الذي حققته نماذج الذكاء الاصطناعي لتحويل النص إلى فيديو مثل "سورا" من أوبن إيه آي، إلا أنها واجهت صعوبات في إنتاج فيديوهات التحولات التدريجية الواقعية، مثل تفتح الزهور أو بناء المباني. فهذه العمليات تتطلب فهماً عميقاً للفيزياء الواقعية وتتنوع مظاهرها بشكل كبير، ما يجعل محاكاتها تحدياً أمام الذكاء الاصطناعي.
يعالج النموذج الجديد "ماجيك تايم" هذه المشكلة من خلال تعلم المعرفة الفيزيائية مباشرة من فيديوهات الزمن المتسارع. بقيادة طالب الدكتوراه جينفا هوانغ والأستاذ جيبو لو من قسم علوم الحاسوب بجامعة روتشستر، قام فريق البحث الدولي بتدريب النموذج على قاعدة بيانات عالية الجودة تضم أكثر من 2000 فيديو زمني متسارع مع أوصاف دقيقة، لالتقاط تفاصيل التحولات الفيزيائية.
الإصدار مفتوح المصدر الحالي للنموذج ينتج مقاطع فيديو مدتها ثانيتان بدقة 512×512 بكسل، بينما تسمح بنية "الانتشار-المحول" المصاحبة بتمديد المدة إلى عشرة ثوانٍ. يمكن لـ "ماجيك تايم" محاكاة عمليات تحول متنوعة تشمل النمو البيولوجي، ومشاريع البناء، وحتى التحولات في الطهي مثل خبز الخبز.
يقول هوانغ: "ماجيك تايم هو خطوة نحو ذكاء اصطناعي قادر على محاكاة الخصائص الفيزيائية أو الكيميائية أو البيولوجية أو الاجتماعية للعالم من حولنا بشكل أفضل". ويتوقع الباحثون تطبيقات علمية واسعة تتجاوز مجال الترفيه، مشيرين إلى أن "علماء الأحياء قد يستخدمون الفيديو التوليدي لتسريع استكشاف الأفكار مبدئياً" مع تقليل الحاجة للتجارب الفيزيائية.
تتجاوز تأثيرات هذه التقنية عدة مجالات. ففي التعليم، يمكنها إنتاج تصورات ديناميكية لعمليات معقدة يصعب مشاهدتها في الوقت الحقيقي. أما صناع المحتوى وصناعة الترفيه، فتوفر لهم أدوات جديدة للمؤثرات البصرية وسرد القصص. ويمكن للعلماء استخدامها لنمذجة وتوقع الظواهر الفيزيائية، مما قد يسرع البحث في مجالات مثل الأحياء وعلوم المواد.
ومع استمرار الذكاء الاصطناعي في الاندماج بشكل أعمق مع النمذجة الفيزيائية، يجسد "ماجيك تايم" كيف أن تضمين المعرفة المتخصصة في النماذج التوليدية يمكن أن ينتج نتائج ليست فقط جذابة بصرياً، بل ذات معنى علمي أيضاً. وقد نُشرت نتائج البحث في مجلة IEEE Transactions on Pattern Analysis and Machine Intelligence.