menu
close

MIT ने न्यूरल नेटवर्क टोकनाइज़र्स की छुपी शक्ति का किया खुलासा

MIT के शोधकर्ताओं ने खोजा है कि न्यूरल नेटवर्क टोकनाइज़र्स पारंपरिक जनरेटर के बिना ही इमेज जेनरेशन और एडिटिंग कर सकते हैं। यह शोध 22 जुलाई 2025 को घोषित किया गया और ICML 2025 में प्रस्तुत किया गया। इसमें दिखाया गया कि 1D टोकनाइज़र्स में व्यक्तिगत टोकन को बदलने से इमेज में दृश्य रूप से पहचान योग्य बदलाव किए जा सकते हैं, जिससे कम कंप्यूटेशनल लागत में प्रभावी इमेज मैनिपुलेशन संभव है। यह तरीका CLIP द्वारा गाइड किए गए टोकनाइज़र-डिकोडर सिस्टम का उपयोग करता है, जिससे टेक्स्ट-गाइडेड एडिटिंग और जेनरेशन संभव होती है।
MIT ने न्यूरल नेटवर्क टोकनाइज़र्स की छुपी शक्ति का किया खुलासा

MIT के शोधकर्ताओं की एक टीम ने खुलासा किया है कि न्यूरल नेटवर्क के वे घटक, जिन्हें अब तक केवल एनकोडर के रूप में देखा जाता था, वे अपने आप में ही जटिल इमेज जेनरेशन और मैनिपुलेशन कार्य कर सकते हैं।

यह शोध वैंकूवर में आयोजित इंटरनेशनल कॉन्फ्रेंस ऑन मशीन लर्निंग (ICML 2025) में प्रस्तुत किया गया। इसमें दिखाया गया कि एक-आयामी (1D) टोकनाइज़र्स—जो विज़ुअल जानकारी को डिस्क्रीट टोकनों की श्रंखला में संपीड़ित करते हैं—उनमें छुपी हुई जनरेटिव क्षमताएं होती हैं, जो पारंपरिक इमेज जनरेटर की आवश्यकता को समाप्त कर सकती हैं।

MIT के लैबोरेटरी फॉर इंफॉर्मेशन एंड डिसीजन सिस्टम्स (LIDS) के ग्रेजुएट छात्र लुकास लाओ बेयर के नेतृत्व में, टीम ने पाया कि इन संपीड़ित प्रतिनिधित्वों के भीतर व्यक्तिगत टोकनों में बदलाव करने से परिणामस्वरूप इमेज में विशिष्ट और पूर्वानुमानित बदलाव आते हैं। लाओ बेयर ने बताया, "यह एक अभूतपूर्व परिणाम था, क्योंकि इससे पहले किसी ने टोकनों में बदलाव से दृश्य रूप से पहचान योग्य परिवर्तन नहीं देखे थे।"

शोधकर्ताओं ने पाया कि एकल टोकन को बदलने से इमेज की गुणवत्ता कम से उच्च रिज़ॉल्यूशन में बदली जा सकती है, बैकग्राउंड की ब्लरनेस को समायोजित किया जा सकता है, ब्राइटनेस लेवल बदले जा सकते हैं, या इमेज में वस्तुओं की पोज़िशन भी बदली जा सकती है। यह खोज सीधे टोकन मैनिपुलेशन के माध्यम से प्रभावी इमेज एडिटिंग के नए रास्ते खोलती है।

और भी महत्वपूर्ण बात यह है कि MIT टीम ने इमेज जेनरेशन का एक नया तरीका दिखाया, जिसमें केवल 1D टोकनाइज़र और एक डिकोडर (या डिटोकनाइज़र) की आवश्यकता होती है, जिसे CLIP नामक ऑफ-द-शेल्फ न्यूरल नेटवर्क द्वारा गाइड किया जाता है। यह सिस्टम एक इमेज टाइप को दूसरे में बदल सकता है—जैसे रेड पांडा को टाइगर में बदलना—या रैंडम टोकन वैल्यूज़ से पूरी तरह नई इमेज भी जेनरेट कर सकता है, जिन्हें क्रमिक रूप से ऑप्टिमाइज़ किया जाता है।

यह तरीका म्यूनिख टेक्निकल यूनिवर्सिटी और बाइटडांस के शोधकर्ताओं की 2024 की खोज पर आधारित है, जिसमें 256×256 पिक्सल की इमेज को केवल 32 टोकनों में संपीड़ित करने की विधि विकसित की गई थी, जबकि पहले के टोकनाइज़र्स आमतौर पर 256 टोकन का उपयोग करते थे। MIT का नवाचार दिखाता है कि ये अत्यधिक संपीड़ित प्रतिनिधित्व रचनात्मक अनुप्रयोगों के लिए समृद्ध सैमान्टिक जानकारी रखते हैं।

शोध टीम में MIT के कंप्यूटर साइंस एंड आर्टिफिशियल इंटेलिजेंस लैबोरेटरी (CSAIL) के टियानहोंग ली, फेसबुक एआई रिसर्च के शिनलेई चेन, MIT के प्रोफेसर सेरटाक करामान और एसोसिएट प्रोफेसर काइमिंग हे शामिल हैं। उनके निष्कर्ष सुझाव देते हैं कि एआई इमेज जेनरेशन का भविष्य और अधिक कंप्यूटेशनली कुशल हो सकता है, जो इस दशक के अंत तक अरबों डॉलर का उद्योग बनने की संभावना है।

Source: Techxplore

Latest News