menu
close

MIT ஆராய்ச்சியாளர்கள் நியூரல் நெட்வொர்க் டோக்கனைசர்களின் மறைந்த சக்தியை வெளிப்படுத்தினர்

MIT ஆராய்ச்சியாளர்கள், பாரம்பரிய ஜெனரேட்டர்கள் இல்லாமல், நியூரல் நெட்வொர்க் டோக்கனைசர்கள் பட உருவாக்கம் மற்றும் திருத்தத்தை செய்ய முடியும் என்பதை 2025 ஜூலை 22 அன்று அறிவித்துள்ளனர். ICML 2025 மாநாட்டில் வெளியான இந்த முன்னேற்றம், 1D டோக்கனைசர்களில் தனிப்பட்ட டோக்கன்களை மாற்றுவதன் மூலம் படங்களில் காணக்கூடிய மாற்றங்களை உருவாக்க முடியும் என்பதை நிரூபிக்கிறது. இது கணிப்பொறி வளங்களை குறைத்து, திறமையான பட திருத்தத்தையும் உருவாக்கத்தையும் சாத்தியமாக்குகிறது. இந்த முறையில் CLIP வழிகாட்டும் டோக்கனைசர்-டிகோடர் அமைப்பு பயன்படுத்தப்படுகிறது.
MIT ஆராய்ச்சியாளர்கள் நியூரல் நெட்வொர்க் டோக்கனைசர்களின் மறைந்த சக்தியை வெளிப்படுத்தினர்

MIT ஆராய்ச்சியாளர்கள் குழு, இதுவரை குறியாக்கிகளாக மட்டும் கருதப்பட்ட நியூரல் நெட்வொர்க் கூறுகள், சுயமாகவே மேம்பட்ட பட உருவாக்கம் மற்றும் திருத்த பணிகளை செய்ய முடியும் என்பதை வெளிப்படுத்தியுள்ளது.

2025-ஆம் ஆண்டு வான்கூவரில் நடைபெற்ற சர்வதேச மெஷின் லெர்னிங் மாநாட்டில் (ICML 2025) இந்த ஆராய்ச்சி வெளியிடப்பட்டது. இதில், ஒரு பரிமாண (1D) டோக்கனைசர்கள்—காட்சி தகவலை தனித்தனி டோக்கன்களாக சுருக்கும் நியூரல் நெட்வொர்க்கள்—பாரம்பரிய பட ஜெனரேட்டர்கள் தேவையில்லாமல் படங்களை உருவாக்கும் திறன் கொண்டவை என்று நிரூபிக்கப்பட்டுள்ளது.

MIT-இன் Laboratory for Information and Decision Systems (LIDS) நிறுவனத்தைச் சேர்ந்த பட்டய ஆய்வாளர் லூகாஸ் லாவ் பயர் தலைமையிலான இந்த குழு, சுருக்கப்பட்ட பிரதிநிதித்துவங்களில் உள்ள தனித்தனி டோக்கன்களை மாற்றுவதன் மூலம், முடிவில் கிடைக்கும் படங்களில் குறிப்பிட்ட மற்றும் கண்காணிக்கக்கூடிய மாற்றங்களை உருவாக்க முடியும் என்பதை கண்டுபிடித்தது. "இது முன்பு யாரும் கண்டுபிடிக்காத ஒரு முடிவு; டோக்கன்களை மாற்றுவதால் நேரடியாக படங்களில் மாற்றங்கள் ஏற்படும் என்பதை யாரும் பார்த்திருக்கவில்லை," என்று லாவ் பயர் கூறினார்.

ஆராய்ச்சியாளர்கள், ஒரு டோக்கனை மாற்றுவதன் மூலம் படத்தின் தரத்தை குறைந்த தீர்மானத்திலிருந்து அதிக தீர்மானத்திற்கு மாற்றலாம், பின்னணியின் மங்கல்பாட்டை மாற்றலாம், பிரைட்னஸை மாற்றலாம், அல்லது படத்தில் உள்ள பொருளின் நிலையை மாற்றலாம் என்பதையும் கண்டறிந்துள்ளனர். இந்த கண்டுபிடிப்பு, நேரடி டோக்கன் மாற்றத்தின் மூலம் திறமையான பட திருத்தத்திற்கு புதிய வாய்ப்புகளை திறக்கிறது.

இதைவிட முக்கியமாக, MIT குழு, 1D டோக்கனைசர் மற்றும் டிகோடர் (அல்லது டிடோக்கனைசர்) மட்டும் பயன்படுத்தி, CLIP எனும் தயாராக கிடைக்கும் நியூரல் நெட்வொர்க் வழிகாட்டுதலுடன், புதிய படங்களை உருவாக்கும் முறையை நிரூபித்துள்ளது. இந்த அமைப்பு, ஒரு படத்தை மற்றொரு வகை படமாக மாற்றலாம்—உதாரணமாக, சிவப்பு பாண்டாவை புலியாக மாற்றுவது—அல்லது முற்றிலும் புதிய படங்களை, சீரற்ற டோக்கன் மதிப்புகளை மாறி மாறி மேம்படுத்துவதன் மூலம் உருவாக்கலாம்.

இந்த அணுகுமுறை, 2024-ஆம் ஆண்டு மியூனிக் தொழில்நுட்ப பல்கலைக்கழகம் மற்றும் ByteDance ஆராய்ச்சியாளர்களின் முன்னேற்றத்தை அடிப்படையாக கொண்டது. அவர்கள் 256×256 பிக்சல் படங்களை வெறும் 32 டோக்கன்களாக சுருக்கும் முறையை கண்டுபிடித்தனர், இது முந்தைய டோக்கனைசர்கள் பயன்படுத்திய 256 டோக்கன்களுடன் ஒப்பிடும் போது மிகக் குறைவாகும். MIT ஆராய்ச்சி, இந்த மிகச் சுருக்கப்பட்ட பிரதிநிதித்துவங்களில் கூட படைப்பாற்றலுக்கான செம்மையான தகவல்கள் உள்ளன என்பதை நிரூபிக்கிறது.

இந்த ஆராய்ச்சி குழுவில் MIT-இன் கணினி அறிவியல் மற்றும் செயற்கை நுண்ணறிவு ஆய்வகத்தைச் சேர்ந்த தியன்ஹொங் லி, Facebook AI Research-இல் இருந்து சின்லெய் சென், MIT பேராசிரியர் செர்டாக் கரமான் மற்றும் MIT இணை பேராசிரியர் கைமிங் ஹீ ஆகியோர் உள்ளனர். இவர்களின் கண்டுபிடிப்புகள், கணிப்பொறி வளங்களை குறைக்கும் வகையில் செயற்கை நுண்ணறிவு பட உருவாக்கத்திற்கு புதிய வழிகளைத் திறக்கக்கூடும் எனவும், இந்த துறை இந்த பத்தாண்டில் பில்லியன் டாலர் தொழில்துறையாக உருவாகும் என எதிர்பார்க்கப்படுகிறது.

Source: Techxplore

Latest News