menu
close

H-Net AI புரட்சி: கடுமையான டோக்கனைசேஷன் விதிகளை நீக்குகிறது

கார்னெகி மெலன் பல்கலைக்கழக ஆராய்ச்சியாளர்கள் ஜூலை 23, 2025 அன்று H-Net எனும் புரட்சிகரமான AI அமைப்பை அறிமுகப்படுத்தினர். இது முன்பதிவுசெய்யப்பட்ட டோக்கனைசேஷன் விதிகளுக்கு பதிலாக பயிற்சியின் போது தானாகவே சிறந்த உரை பிரிப்பை கற்றுக்கொள்கிறது. இந்த அமைப்பு டிஎன்ஏ வரிசைகளில் சுமார் 4 மடங்கு மேம்பட்ட செயல்திறனை மற்றும் பல மொழிகளில் பாரம்பரிய முறைகளை விட குறிப்பிடத்தக்க முன்னேற்றங்களை காட்டுகிறது. உரை செயலாக்கத்தில் இந்த தன்னிச்சையான அணுகுமுறை, பல்வேறு தரவுகளை AI அமைப்புகள் புரிந்து கொள்ளும் விதத்தில் அடிப்படையான முன்னேற்றமாகும்.
H-Net AI புரட்சி: கடுமையான டோக்கனைசேஷன் விதிகளை நீக்குகிறது

PhD மாணவர் சுக்‌ஜூன் ஹ்வாங் மற்றும் பேராசிரியர்கள் பிராண்டன் வாங், ஆல்பர்ட் கு ஆகியோரின் தலைமையில் கார்னெகி மெலன் பல்கலைக்கழகத்தில் உருவாக்கப்பட்டுள்ள H-Net எனும் புதிய AI கட்டமைப்பு, மொழி மாதிரிகள் உரை மற்றும் பிற தொடர்ச்சியான தரவுகளை செயலாக்கும் முறையில் புரட்சியை ஏற்படுத்தும் வகையில் உள்ளது.

பாரம்பரிய மொழி மாதிரிகள் டோக்கனைசேஷன் எனப்படும் முன்பதிவுசெய்யப்பட்ட கட்டுப்பாடுகளைக் கொண்ட உரை பிரிப்பை நம்புகின்றன. இது குறிப்பாக சொல் எல்லைகள் தெளிவாக இல்லாத மொழிகள் மற்றும் ஜெனோமிக்ஸ் போன்ற சிறப்பு துறைகளில் அடிப்படை வரம்புகளை உருவாக்குகிறது. H-Net இந்தக் கட்டுப்பாட்டை நீக்கி, பயிற்சியின் போது தானாகவே சிறந்த உரை பிரிப்பை கற்றுக்கொள்ளும் இயக்கவியல் முறையை பயன்படுத்துகிறது.

2025 ஜூலை 10-ஆம் தேதி arXiv-இல் வெளியிடப்பட்டு, ஜூலை 15-ஆம் தேதி புதுப்பிக்கப்பட்ட ஆராய்ச்சி கட்டுரையில், H-Net பாரம்பரிய முறைகளை விட டிஎன்ஏ வரிசைகள் செயலாக்கத்தில் சுமார் 4 மடங்கு தரவு திறனைக் காட்டுகிறது. மேலும், சீனம் மற்றும் நிரலாக்க குறியீடு உள்ளிட்ட பல்வேறு மொழிகளில் சிறந்த செயல்திறன் காணப்படுகிறது.

H-Net-ஐ தனித்துவமாக்குவது, வெளிப்படையான மேற்பார்வையின்றி உள்ளடக்கம் மற்றும் சூழ்நிலைக்கு ஏற்ப பிரிப்பு உத்திகளை கற்றுக்கொள்ளும் திறன். இந்த மாதிரி பைட் மட்டத்தில் செயல்பட்டு, பல நிலைகளில் மீண்டும் மீண்டும் செயல்படக்கூடிய அடுக்குமுறை வலைப்பின்னல் அமைப்பை கொண்டுள்ளது. இதன் மூலம், H-Net, இரட்டிப்பு அளவுள்ள டோக்கன் அடிப்படையிலான டிரான்ஸ்ஃபார்மர்களின் செயல்திறனை சமமாக அல்லது மேலாகக் காட்டுகிறது.

மொழி செயலாக்கத்தை தாண்டி, H-Net தொடர்ச்சியான மதிப்புகளைக் கொண்ட தரவுகள் (ஆடியோ, வீடியோ போன்றவை) செயலாக்கத்திற்கும் வாய்ப்புகளை திறக்கிறது. இது சிறந்த மல்டிமோடல் AI அமைப்புகளுக்கு வழிவகுக்கும். ஆராய்ச்சியாளர்கள் தங்கள் குறியீட்டை GitHub-இல் பொதுமக்களுக்கு வெளியிட்டுள்ளனர், இதன் மூலம் பிற ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்கள் இதை மேம்படுத்தலாம்.

"டோக்கனைசேஷனை மீறுவது டோக்கனைசர்களைப் பற்றியதல்ல, ஆனால் அப்ஸ்ட்ராக்ஷன்களை கற்றுக்கொள்வதைப் பற்றியது," என ஆல்பர்ட் கு தங்கள் வலைப்பதிவில் குறிப்பிட்டுள்ளார். "இதை செய்யக்கூடிய ஒரு கருவியை கண்டுபிடிப்பது புதிய திறன்களை திறக்கும்." AI அமைப்புகள் தொடர்ந்து மேம்படும் நிலையில், H-Net மனித மொழி மற்றும் பிற தொடர்ச்சியான தரவுகளின் சிக்கல்களை சிறப்பாக புரிந்து கொள்ளும், மேலும் நெகிழ்வான மற்றும் திறமையான மாதிரிகளுக்கான முக்கிய முன்னேற்றமாகும்.

Source: Theneuron

Latest News