जहाँ OpenAI के सोरा जैसे टेक्स्ट-टू-वीडियो एआई मॉडल वीडियो जनरेशन में उल्लेखनीय प्रगति कर चुके हैं, वहीं वे यथार्थवादी मेटामॉर्फिक वीडियो—जैसे फूलों का खिलना या इमारतों का निर्माण—बनाने में संघर्ष करते रहे हैं। इन प्रक्रियाओं का सटीक अनुकरण एआई के लिए चुनौतीपूर्ण है क्योंकि इसके लिए वास्तविक दुनिया की भौतिकी की गहरी समझ आवश्यक होती है और इनका स्वरूप भी काफी भिन्न हो सकता है।
नवीनतम विकसित मैजिकटाइम मॉडल इस कमी को दूर करता है, क्योंकि यह टाइम-लैप्स वीडियो से सीधे भौतिक ज्ञान सीखता है। रोचेस्टर विश्वविद्यालय के कंप्यूटर विज्ञान विभाग के पीएचडी छात्र जिनफा हुआंग और प्रोफेसर जिएबो लुओ के नेतृत्व में, अंतरराष्ट्रीय शोधकर्ताओं की टीम ने 2,000 से अधिक सावधानीपूर्वक कैप्शन किए गए टाइम-लैप्स वीडियो के उच्च गुणवत्ता वाले डेटासेट पर अपने मॉडल को प्रशिक्षित किया, ताकि भौतिक परिवर्तनों की बारीकियों को समझा जा सके।
वर्तमान ओपन-सोर्स संस्करण 512×512 पिक्सल रेज़ोल्यूशन पर दो सेकंड के क्लिप जेनरेट करता है, जबकि एक डिफ्यूजन-ट्रांसफॉर्मर आर्किटेक्चर इसे दस सेकंड तक बढ़ा देता है। मैजिकटाइम जैविक विकास, निर्माण कार्य, यहाँ तक कि ब्रेड बेकिंग जैसी पाक प्रक्रियाओं सहित विभिन्न मेटामॉर्फिक प्रक्रियाओं का अनुकरण कर सकता है।
"मैजिकटाइम एआई को इस दिशा में एक कदम आगे ले जाता है, जहाँ वह हमारे चारों ओर की भौतिक, रासायनिक, जैविक या सामाजिक विशेषताओं का बेहतर अनुकरण कर सके," हुआंग बताते हैं। शोधकर्ता मनोरंजन से आगे बढ़कर वैज्ञानिक अनुप्रयोगों की कल्पना करते हैं, यह सुझाव देते हुए कि "जैव वैज्ञानिक विचारों की प्रारंभिक खोज को तेज करने के लिए जनरेटिव वीडियो का उपयोग कर सकते हैं," जिससे भौतिक प्रयोगों की आवश्यकता कम हो सकती है।
इस तकनीक के प्रभाव कई क्षेत्रों तक फैले हुए हैं। शिक्षा में, यह जटिल प्रक्रियाओं के गतिशील दृश्य प्रस्तुत कर सकता है, जिन्हें वास्तविक समय में देखना कठिन होता है। कंटेंट क्रिएटर्स और मनोरंजन उद्योग के लिए, यह विशेष प्रभाव और कहानी कहने के नए उपकरण प्रदान करता है। वैज्ञानिक इसका उपयोग भौतिक घटनाओं का मॉडलिंग और पूर्वानुमान लगाने के लिए कर सकते हैं, जिससे जीवविज्ञान से लेकर मटेरियल साइंस तक के अनुसंधान में तेजी आ सकती है।
जैसे-जैसे एआई भौतिक मॉडलिंग के साथ गहराई से एकीकृत होता जा रहा है, मैजिकटाइम यह दर्शाता है कि डोमेन-विशिष्ट ज्ञान को जनरेटिव मॉडल्स में समाहित करने से ऐसे परिणाम मिल सकते हैं, जो न केवल दृश्य रूप से आकर्षक हों, बल्कि वैज्ञानिक दृष्टि से भी महत्वपूर्ण हों। यह शोध IEEE Transactions on Pattern Analysis and Machine Intelligence में प्रकाशित हुआ है।