एआई विज़न मॉडल्स नकारात्मकता को समझने में असफल, चिकित्सा में गंभीर त्रुटियों का खतरा

MIT के शोधकर्ताओं ने पाया है कि विज़न-लैंग्वेज मॉडल्स (VLMs) 'नहीं' और 'न' जैसे नकारात्मक शब्दों को समझने में असमर्थ हैं, और परीक्षणों में ये मॉडल्स सिर्फ़ अनुमान लगाने जितना ही अच्छा प्रदर्शन करते हैं। यह मौलिक कमी स्वास्थ्य देखभाल में गंभीर निदान संबंधी त्रुटियों का कारण बन सकती है, जहाँ किसी स्थिति की उपस्थिति या अनुपस्थिति को समझना बेहद महत्वपूर्ण होता है। कुमैल अलहमौद और मर्ज़ीयेह घासेमी के नेतृत्व में शोध टीम ने इन मॉडलों के मूल्यांकन और सुधार के लिए 'नेगबेंच' नामक एक बेंचमार्क विकसित किया है।

MIT के एक क्रांतिकारी अध्ययन ने विज़न-लैंग्वेज मॉडल्स (VLMs) में एक गंभीर कमी उजागर की है, जो स्वास्थ्य देखभाल और अन्य उच्च जोखिम वाले क्षेत्रों में इनके उपयोग पर गंभीर प्रभाव डाल सकती है।

अध्ययन में MIT के शोधकर्ताओं ने पाया कि VLMs वास्तविक जीवन की परिस्थितियों में गलतियाँ करने की अत्यधिक संभावना रखते हैं, क्योंकि वे 'नहीं' और 'न' जैसे नकारात्मक शब्दों को नहीं समझते — ये वे शब्द हैं जो किसी चीज़ की अनुपस्थिति या असत्यता को दर्शाते हैं। 'ये नकारात्मक शब्द बहुत महत्वपूर्ण प्रभाव डाल सकते हैं, और यदि हम इन मॉडलों का आँख मूंदकर उपयोग करते हैं, तो हमें विनाशकारी परिणामों का सामना करना पड़ सकता है,' अध्ययन के प्रमुख लेखक और MIT के ग्रेजुएट छात्र कुमैल अलहमौद कहते हैं।

शोधकर्ता इस समस्या को एक चिकित्सीय उदाहरण से स्पष्ट करते हैं: कल्पना कीजिए कि एक रेडियोलॉजिस्ट छाती के एक्स-रे की जाँच कर रहा है और देखता है कि रोगी के ऊतकों में सूजन है, लेकिन हृदय बड़ा नहीं है। ऐसी स्थिति में, विज़न-लैंग्वेज मॉडल्स इन दोनों स्थितियों के बीच अंतर करने में विफल हो सकते हैं। यदि मॉडल गलती से दोनों स्थितियों वाले रिपोर्ट्स की पहचान कर लेता है, तो निदान पर इसका गंभीर प्रभाव पड़ सकता है: ऊतक में सूजन और बड़ा हृदय होने पर संभावना है कि रोगी को हृदय संबंधी समस्या है, लेकिन यदि हृदय बड़ा नहीं है, तो इसके कई अन्य कारण हो सकते हैं।

जब शोधकर्ताओं ने इमेज कैप्शनों में नकारात्मकता की पहचान करने की VLMs की क्षमता का परीक्षण किया, तो पाया कि ये मॉडल अक्सर केवल अनुमान लगाने जितना ही अच्छा प्रदर्शन करते हैं। इन निष्कर्षों के आधार पर, टीम ने उन छवियों का एक डेटासेट तैयार किया, जिनके कैप्शन में अनुपस्थित वस्तुओं का वर्णन करने वाले नकारात्मक शब्द शामिल हैं। उन्होंने दिखाया कि इस डेटासेट के साथ मॉडल को पुनः प्रशिक्षित करने से, जब मॉडल से ऐसी छवियों को खोजने के लिए कहा जाता है जिनमें कुछ वस्तुएँ नहीं हैं, तो उसका प्रदर्शन बेहतर होता है। साथ ही, नकारात्मक कैप्शन वाले मल्टीपल चॉइस प्रश्नों के उत्तर देने में भी सटीकता बढ़ती है। हालांकि, शोधकर्ता सावधान करते हैं कि इस समस्या की जड़ तक पहुँचने के लिए और अधिक कार्य की आवश्यकता है।

'यह केवल 'नहीं' और 'न' जैसे शब्दों तक सीमित नहीं है। आप नकारात्मकता या बहिष्करण को किसी भी तरह से व्यक्त करें, मॉडल उसे अनदेखा कर देते हैं,' अलहमौद कहते हैं। यह हर VLM के साथ देखा गया। इस समस्या की जड़ इन मॉडलों के प्रशिक्षण के तरीके में है। 'कैप्शन में केवल वही बताया जाता है जो छवि में है — यानी सकारात्मक लेबल। और यही असल समस्या है। कोई भी कुत्ते की बाड़ कूदती तस्वीर को 'एक कुत्ता बाड़ कूद रहा है, जिसमें कोई हेलीकॉप्टर नहीं है' कहकर कैप्शन नहीं करता,' वरिष्ठ लेखक मर्ज़ीयेह घासेमी समझाती हैं। चूंकि इमेज-कैप्शन डेटासेट्स में नकारात्मकता के उदाहरण नहीं होते, VLMs कभी इसे पहचानना नहीं सीखते।

'अगर नकारात्मकता जैसी बुनियादी चीज़ ही टूटी हुई है, तो हमें बड़े विज़न/लैंग्वेज मॉडल्स का उपयोग वैसे नहीं करना चाहिए, जैसे हम अभी कर रहे हैं — बिना गहन मूल्यांकन के,' घासेमी कहती हैं, जो इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर साइंस विभाग में एसोसिएट प्रोफेसर और इंस्टीट्यूट ऑफ मेडिकल इंजीनियरिंग साइंसेज़ की सदस्य हैं। यह शोध, जिसे कंप्यूटर विज़न एंड पैटर्न रिकग्निशन सम्मेलन में प्रस्तुत किया जाएगा, MIT, OpenAI और ऑक्सफोर्ड यूनिवर्सिटी के शोधकर्ताओं की टीम द्वारा किया गया है।

यह खोज सुरक्षा निगरानी और स्वास्थ्य देखभाल जैसे उच्च जोखिम वाले क्षेत्रों के लिए महत्वपूर्ण प्रभाव रखती है। शोधकर्ताओं का कार्य, जिसमें 'नेगबेंच' नामक एक व्यापक बेंचमार्क का विकास शामिल है, जो नकारात्मकता-विशिष्ट कार्यों पर विज़न-लैंग्वेज मॉडल्स का मूल्यांकन करता है, अधिक मजबूत एआई सिस्टम की दिशा में एक महत्वपूर्ण कदम है, जो सूक्ष्म भाषा समझने में सक्षम होंगे — जिसका चिकित्सा निदान और सेमांटिक कंटेंट रिट्रीवल में गहरा महत्व है।

एआई विज़न मॉडल्स नकारात्मकता को समझने में असफल, चिकित्सा में गंभीर त्रुटियों का खतरा

Latest News

ByteDance के Doubao AI में अब रियल-टाइम वीडियो असिस्टेंस की सुविधा

OnePlus ने अलर्ट स्लाइडर हटाकर AI-समर्थित प्लस की पेश की

जर्मन टेक दिग्गजों ने ईयू समर्थित एआई गीगाफैक्ट्री के लिए मिलाया हाथ

अमेरिकी अभियोजकों ने $1.5 बिलियन की एआई स्टार्टअप Builder.ai के पतन से पहले की थी जांच

नॉर्वे के $1.8 ट्रिलियन फंड ने कर्मचारियों के लिए AI को अनिवार्य बनाया

OpenTools.ai ने टेक प्रोफेशनल्स के लिए AI न्यूज़ हब लॉन्च किया

Google ने Gemini के माध्यम से डेवलपर्स के लिए AI कंप्यूटर नियंत्रण का विस्तार किया

Google ने Gemini मॉडलों में पारदर्शी विचार सारांश जोड़े

एआई विज़न मॉडल्स नकारात्मकता को समझने में असफल, चिकित्सा में गंभीर त्रुटियों का खतरा

Related Articles

OnePlus ने अलर्ट स्लाइडर हटाकर AI-समर्थित प्लस की पेश की

जर्मन टेक दिग्गजों ने ईयू समर्थित एआई गीगाफैक्ट्री के लिए मिलाया हाथ

अमेरिकी अभियोजकों ने $1.5 बिलियन की एआई स्टार्टअप Builder.ai के पतन से पहले की थी जांच

Latest News

ByteDance के Doubao AI में अब रियल-टाइम वीडियो असिस्टेंस की सुविधा

OnePlus ने अलर्ट स्लाइडर हटाकर AI-समर्थित प्लस की पेश की

जर्मन टेक दिग्गजों ने ईयू समर्थित एआई गीगाफैक्ट्री के लिए मिलाया हाथ

अमेरिकी अभियोजकों ने $1.5 बिलियन की एआई स्टार्टअप Builder.ai के पतन से पहले की थी जांच

नॉर्वे के $1.8 ट्रिलियन फंड ने कर्मचारियों के लिए AI को अनिवार्य बनाया

OpenTools.ai ने टेक प्रोफेशनल्स के लिए AI न्यूज़ हब लॉन्च किया

Google ने Gemini के माध्यम से डेवलपर्स के लिए AI कंप्यूटर नियंत्रण का विस्तार किया

Google ने Gemini मॉडलों में पारदर्शी विचार सारांश जोड़े