menu
close

H-Net एआई ब्रेकथ्रू ने समाप्त किए कठोर टोकनाइज़ेशन नियम

कार्नेगी मेलॉन विश्वविद्यालय के शोधकर्ताओं ने 23 जुलाई, 2025 को H-Net पेश किया, जो एक क्रांतिकारी एआई सिस्टम है। यह सिस्टम पूर्व-निर्धारित टोकनाइज़ेशन नियमों पर निर्भर रहने के बजाय प्रशिक्षण के दौरान खुद-ब-खुद सबसे उपयुक्त टेक्स्ट विभाजन सीखता है। डीएनए सीक्वेंस पर यह प्रणाली पारंपरिक तरीकों की तुलना में लगभग 4 गुना बेहतर प्रदर्शन करती है और कई भाषाओं में भी उल्लेखनीय सुधार दिखाती है। टेक्स्ट प्रोसेसिंग के इस अनुकूलनशील दृष्टिकोण ने एआई सिस्टम्स की डेटा समझ और प्रोसेसिंग की दिशा में एक मौलिक प्रगति को दर्शाया है।
H-Net एआई ब्रेकथ्रू ने समाप्त किए कठोर टोकनाइज़ेशन नियम

कार्नेगी मेलॉन विश्वविद्यालय के पीएचडी छात्र सुकजुन ह्वांग और प्रोफेसर ब्रैंडन वांग व अल्बर्ट गू के नेतृत्व में एक टीम ने H-Net नामक एक अत्याधुनिक एआई आर्किटेक्चर विकसित किया है, जो भाषा मॉडल्स द्वारा टेक्स्ट और अन्य अनुक्रमिक डेटा प्रोसेसिंग के तरीके को बदल सकता है।

पारंपरिक भाषा मॉडल्स टोकनाइज़ेशन पर निर्भर करते हैं—यह एक पूर्व-प्रसंस्करण चरण है, जिसमें टेक्स्ट को कठोर नियमों के अनुसार छोटे-छोटे हिस्सों में बांटा जाता है। यह तरीका खासकर उन भाषाओं के लिए सीमाएं पैदा करता है, जिनमें स्पष्ट शब्द सीमाएं नहीं होतीं, और जीनोमिक्स जैसे विशेष क्षेत्रों में भी। H-Net इस बाध्यता को दूर करता है और एक डायनामिक चंकिंग मैकेनिज्म लागू करता है, जो प्रशिक्षण के दौरान खुद-ब-खुद सबसे प्रभावी टेक्स्ट विभाजन सीखता है।

शोधकर्ताओं का पेपर, जो 10 जुलाई को arXiv पर प्रकाशित हुआ और 15 जुलाई, 2025 को अपडेट हुआ, दर्शाता है कि H-Net डीएनए सीक्वेंस प्रोसेसिंग में पारंपरिक तरीकों की तुलना में लगभग 4 गुना बेहतर डेटा दक्षता हासिल करता है। यह प्रणाली कई भाषाओं में भी बेहतरीन प्रदर्शन करती है, जिसमें चीनी भाषा और प्रोग्रामिंग कोड के लिए खासतौर पर मजबूत परिणाम मिले हैं।

H-Net को क्रांतिकारी बनाने वाली बात यह है कि यह बिना स्पष्ट पर्यवेक्षण के, सामग्री और संदर्भ-आधारित विभाजन रणनीतियां सीख सकता है। यह मॉडल बाइट स्तर पर काम करता है और इसमें एक पदानुक्रमित नेटवर्क संरचना है, जिसे कई चरणों में दोहराया जा सकता है, जिससे यह विभिन्न अमूर्त स्तरों को मॉडल कर सकता है। इस दृष्टिकोण के कारण H-Net, अपने आकार के दोगुने टोकन-आधारित ट्रांसफॉर्मर मॉडल्स के बराबर प्रदर्शन कर सकता है।

भाषा प्रोसेसिंग से आगे, H-Net ऑडियो और वीडियो जैसी सतत-मूल्य वाली अनुक्रमों की प्रोसेसिंग के लिए भी संभावनाएं खोलता है, जिससे बेहतर मल्टीमॉडल एआई सिस्टम्स संभव हो सकते हैं। शोधकर्ताओं ने अपना कोड GitHub पर सार्वजनिक रूप से उपलब्ध कराया है, जिससे अन्य शोधकर्ता और डेवलपर इस पर आगे काम कर सकते हैं।

"टोकनाइज़ेशन पर विजय पाना टोकनाइज़र्स के बारे में नहीं, बल्कि अमूर्तताओं को सीखने के बारे में है," अल्बर्ट गू ने इस परियोजना की व्याख्या करते हुए एक ब्लॉग पोस्ट में लिखा। "ऐसा टूल खोज पाना, जो यह कर सके, नई क्षमताओं के द्वार खोलेगा।" जैसे-जैसे एआई सिस्टम्स विकसित हो रहे हैं, H-Net अधिक लचीले, कुशल और सक्षम मॉडलों की दिशा में एक महत्वपूर्ण कदम है, जो मानव भाषा और अन्य अनुक्रमिक डेटा की जटिलताओं को बेहतर ढंग से समझ सकते हैं।

Source: Theneuron

Latest News