PhD மாணவர் சுக்ஜூன் ஹ்வாங் மற்றும் பேராசிரியர்கள் பிராண்டன் வாங், ஆல்பர்ட் கு ஆகியோரின் தலைமையில் கார்னெகி மெலன் பல்கலைக்கழகத்தில் உருவாக்கப்பட்டுள்ள H-Net எனும் புதிய AI கட்டமைப்பு, மொழி மாதிரிகள் உரை மற்றும் பிற தொடர்ச்சியான தரவுகளை செயலாக்கும் முறையில் புரட்சியை ஏற்படுத்தும் வகையில் உள்ளது.
பாரம்பரிய மொழி மாதிரிகள் டோக்கனைசேஷன் எனப்படும் முன்பதிவுசெய்யப்பட்ட கட்டுப்பாடுகளைக் கொண்ட உரை பிரிப்பை நம்புகின்றன. இது குறிப்பாக சொல் எல்லைகள் தெளிவாக இல்லாத மொழிகள் மற்றும் ஜெனோமிக்ஸ் போன்ற சிறப்பு துறைகளில் அடிப்படை வரம்புகளை உருவாக்குகிறது. H-Net இந்தக் கட்டுப்பாட்டை நீக்கி, பயிற்சியின் போது தானாகவே சிறந்த உரை பிரிப்பை கற்றுக்கொள்ளும் இயக்கவியல் முறையை பயன்படுத்துகிறது.
2025 ஜூலை 10-ஆம் தேதி arXiv-இல் வெளியிடப்பட்டு, ஜூலை 15-ஆம் தேதி புதுப்பிக்கப்பட்ட ஆராய்ச்சி கட்டுரையில், H-Net பாரம்பரிய முறைகளை விட டிஎன்ஏ வரிசைகள் செயலாக்கத்தில் சுமார் 4 மடங்கு தரவு திறனைக் காட்டுகிறது. மேலும், சீனம் மற்றும் நிரலாக்க குறியீடு உள்ளிட்ட பல்வேறு மொழிகளில் சிறந்த செயல்திறன் காணப்படுகிறது.
H-Net-ஐ தனித்துவமாக்குவது, வெளிப்படையான மேற்பார்வையின்றி உள்ளடக்கம் மற்றும் சூழ்நிலைக்கு ஏற்ப பிரிப்பு உத்திகளை கற்றுக்கொள்ளும் திறன். இந்த மாதிரி பைட் மட்டத்தில் செயல்பட்டு, பல நிலைகளில் மீண்டும் மீண்டும் செயல்படக்கூடிய அடுக்குமுறை வலைப்பின்னல் அமைப்பை கொண்டுள்ளது. இதன் மூலம், H-Net, இரட்டிப்பு அளவுள்ள டோக்கன் அடிப்படையிலான டிரான்ஸ்ஃபார்மர்களின் செயல்திறனை சமமாக அல்லது மேலாகக் காட்டுகிறது.
மொழி செயலாக்கத்தை தாண்டி, H-Net தொடர்ச்சியான மதிப்புகளைக் கொண்ட தரவுகள் (ஆடியோ, வீடியோ போன்றவை) செயலாக்கத்திற்கும் வாய்ப்புகளை திறக்கிறது. இது சிறந்த மல்டிமோடல் AI அமைப்புகளுக்கு வழிவகுக்கும். ஆராய்ச்சியாளர்கள் தங்கள் குறியீட்டை GitHub-இல் பொதுமக்களுக்கு வெளியிட்டுள்ளனர், இதன் மூலம் பிற ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்கள் இதை மேம்படுத்தலாம்.
"டோக்கனைசேஷனை மீறுவது டோக்கனைசர்களைப் பற்றியதல்ல, ஆனால் அப்ஸ்ட்ராக்ஷன்களை கற்றுக்கொள்வதைப் பற்றியது," என ஆல்பர்ட் கு தங்கள் வலைப்பதிவில் குறிப்பிட்டுள்ளார். "இதை செய்யக்கூடிய ஒரு கருவியை கண்டுபிடிப்பது புதிய திறன்களை திறக்கும்." AI அமைப்புகள் தொடர்ந்து மேம்படும் நிலையில், H-Net மனித மொழி மற்றும் பிற தொடர்ச்சியான தரவுகளின் சிக்கல்களை சிறப்பாக புரிந்து கொள்ளும், மேலும் நெகிழ்வான மற்றும் திறமையான மாதிரிகளுக்கான முக்கிய முன்னேற்றமாகும்.