رغم التقدم الكبير الذي حققته نماذج الذكاء الاصطناعي لتحويل النص إلى فيديو مثل Sora من OpenAI، إلا أنها واجهت صعوبة في إنتاج فيديوهات متحولة واقعية، مثل تلك التي تُظهر تحولات تدريجية كإزهار الزهور أو بناء المباني. فهذه العمليات تمثل تحدياً خاصاً للذكاء الاصطناعي لأنها تتطلب فهماً عميقاً للفيزياء الواقعية وتختلف كثيراً في مظهرها.
النموذج الجديد ماجيك تايم يعالج هذا التحدي من خلال تعلم المعرفة الفيزيائية مباشرة من فيديوهات التايم لابس. بقيادة طالب الدكتوراه جينفا هوانغ والبروفيسور جيبو لو من قسم علوم الحاسوب بجامعة روتشستر، قام فريق البحث الدولي بتدريب النموذج على قاعدة بيانات عالية الجودة تضم أكثر من 2000 فيديو تايم لابس موصوف بدقة لالتقاط تفاصيل التحولات الفيزيائية.
الإصدار الحالي مفتوح المصدر من النموذج ينتج مقاطع فيديو مدتها ثانيتان بدقة 512×512 بكسل، بينما يتيح هيكل النشر-التحويل المصاحب توليد فيديوهات تصل إلى عشر ثوانٍ. يمكن لماجيك تايم محاكاة عمليات متحولة متنوعة تشمل النمو البيولوجي، مشاريع البناء، وحتى التحولات في الطهي مثل خبز الخبز.
يقول هوانغ: "ماجيك تايم هو خطوة نحو ذكاء اصطناعي يمكنه محاكاة الخصائص الفيزيائية أو الكيميائية أو البيولوجية أو الاجتماعية للعالم من حولنا بشكل أفضل". ويتصور الباحثون تطبيقات علمية واسعة تتجاوز مجال الترفيه، حيث يقترحون أن "علماء الأحياء يمكنهم استخدام الفيديو التوليدي لتسريع الاستكشاف الأولي للأفكار" مع تقليل الحاجة للتجارب الفيزيائية.
تتعدى تأثيرات هذه التقنية عدة مجالات. ففي التعليم، يمكن أن تتيح إنشاء تصورات ديناميكية لعمليات معقدة يصعب ملاحظتها في الوقت الحقيقي. أما لصناع المحتوى وصناعة الترفيه، فهي توفر أدوات جديدة للمؤثرات البصرية وسرد القصص. ويمكن للعلماء استخدامها لنمذجة وتوقع الظواهر الفيزيائية، ما قد يسرّع الأبحاث في مجالات تتراوح من علم الأحياء إلى علوم المواد.
ومع استمرار الذكاء الاصطناعي في الاندماج بشكل أعمق مع النمذجة الفيزيائية، يجسد ماجيك تايم كيف أن تضمين المعرفة المتخصصة في النماذج التوليدية يمكن أن ينتج نتائج ليست فقط جذابة بصرياً، بل ذات معنى علمي أيضاً. وقد تم نشر البحث في مجلة IEEE Transactions on Pattern Analysis and Machine Intelligence.