menu
close

एआई विज़न मॉडल्स नकारात्मकता को समझने में असफल, चिकित्सा में गंभीर त्रुटियों का खतरा

MIT के शोधकर्ताओं ने पाया है कि विज़न-लैंग्वेज मॉडल्स (VLMs) 'नहीं' और 'न' जैसे नकारात्मक शब्दों को समझने में असमर्थ हैं, और परीक्षणों में ये मॉडल्स सिर्फ़ अनुमान लगाने जितना ही अच्छा प्रदर्शन करते हैं। यह मौलिक कमी स्वास्थ्य देखभाल में गंभीर निदान संबंधी त्रुटियों का कारण बन सकती है, जहाँ किसी स्थिति की उपस्थिति या अनुपस्थिति को समझना बेहद महत्वपूर्ण होता है। कुमैल अलहमौद और मर्ज़ीयेह घासेमी के नेतृत्व में शोध टीम ने इन मॉडलों के मूल्यांकन और सुधार के लिए 'नेगबेंच' नामक एक बेंचमार्क विकसित किया है।
एआई विज़न मॉडल्स नकारात्मकता को समझने में असफल, चिकित्सा में गंभीर त्रुटियों का खतरा

MIT के एक क्रांतिकारी अध्ययन ने विज़न-लैंग्वेज मॉडल्स (VLMs) में एक गंभीर कमी उजागर की है, जो स्वास्थ्य देखभाल और अन्य उच्च जोखिम वाले क्षेत्रों में इनके उपयोग पर गंभीर प्रभाव डाल सकती है।

अध्ययन में MIT के शोधकर्ताओं ने पाया कि VLMs वास्तविक जीवन की परिस्थितियों में गलतियाँ करने की अत्यधिक संभावना रखते हैं, क्योंकि वे 'नहीं' और 'न' जैसे नकारात्मक शब्दों को नहीं समझते — ये वे शब्द हैं जो किसी चीज़ की अनुपस्थिति या असत्यता को दर्शाते हैं। 'ये नकारात्मक शब्द बहुत महत्वपूर्ण प्रभाव डाल सकते हैं, और यदि हम इन मॉडलों का आँख मूंदकर उपयोग करते हैं, तो हमें विनाशकारी परिणामों का सामना करना पड़ सकता है,' अध्ययन के प्रमुख लेखक और MIT के ग्रेजुएट छात्र कुमैल अलहमौद कहते हैं।

शोधकर्ता इस समस्या को एक चिकित्सीय उदाहरण से स्पष्ट करते हैं: कल्पना कीजिए कि एक रेडियोलॉजिस्ट छाती के एक्स-रे की जाँच कर रहा है और देखता है कि रोगी के ऊतकों में सूजन है, लेकिन हृदय बड़ा नहीं है। ऐसी स्थिति में, विज़न-लैंग्वेज मॉडल्स इन दोनों स्थितियों के बीच अंतर करने में विफल हो सकते हैं। यदि मॉडल गलती से दोनों स्थितियों वाले रिपोर्ट्स की पहचान कर लेता है, तो निदान पर इसका गंभीर प्रभाव पड़ सकता है: ऊतक में सूजन और बड़ा हृदय होने पर संभावना है कि रोगी को हृदय संबंधी समस्या है, लेकिन यदि हृदय बड़ा नहीं है, तो इसके कई अन्य कारण हो सकते हैं।

जब शोधकर्ताओं ने इमेज कैप्शनों में नकारात्मकता की पहचान करने की VLMs की क्षमता का परीक्षण किया, तो पाया कि ये मॉडल अक्सर केवल अनुमान लगाने जितना ही अच्छा प्रदर्शन करते हैं। इन निष्कर्षों के आधार पर, टीम ने उन छवियों का एक डेटासेट तैयार किया, जिनके कैप्शन में अनुपस्थित वस्तुओं का वर्णन करने वाले नकारात्मक शब्द शामिल हैं। उन्होंने दिखाया कि इस डेटासेट के साथ मॉडल को पुनः प्रशिक्षित करने से, जब मॉडल से ऐसी छवियों को खोजने के लिए कहा जाता है जिनमें कुछ वस्तुएँ नहीं हैं, तो उसका प्रदर्शन बेहतर होता है। साथ ही, नकारात्मक कैप्शन वाले मल्टीपल चॉइस प्रश्नों के उत्तर देने में भी सटीकता बढ़ती है। हालांकि, शोधकर्ता सावधान करते हैं कि इस समस्या की जड़ तक पहुँचने के लिए और अधिक कार्य की आवश्यकता है।

'यह केवल 'नहीं' और 'न' जैसे शब्दों तक सीमित नहीं है। आप नकारात्मकता या बहिष्करण को किसी भी तरह से व्यक्त करें, मॉडल उसे अनदेखा कर देते हैं,' अलहमौद कहते हैं। यह हर VLM के साथ देखा गया। इस समस्या की जड़ इन मॉडलों के प्रशिक्षण के तरीके में है। 'कैप्शन में केवल वही बताया जाता है जो छवि में है — यानी सकारात्मक लेबल। और यही असल समस्या है। कोई भी कुत्ते की बाड़ कूदती तस्वीर को 'एक कुत्ता बाड़ कूद रहा है, जिसमें कोई हेलीकॉप्टर नहीं है' कहकर कैप्शन नहीं करता,' वरिष्ठ लेखक मर्ज़ीयेह घासेमी समझाती हैं। चूंकि इमेज-कैप्शन डेटासेट्स में नकारात्मकता के उदाहरण नहीं होते, VLMs कभी इसे पहचानना नहीं सीखते।

'अगर नकारात्मकता जैसी बुनियादी चीज़ ही टूटी हुई है, तो हमें बड़े विज़न/लैंग्वेज मॉडल्स का उपयोग वैसे नहीं करना चाहिए, जैसे हम अभी कर रहे हैं — बिना गहन मूल्यांकन के,' घासेमी कहती हैं, जो इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर साइंस विभाग में एसोसिएट प्रोफेसर और इंस्टीट्यूट ऑफ मेडिकल इंजीनियरिंग साइंसेज़ की सदस्य हैं। यह शोध, जिसे कंप्यूटर विज़न एंड पैटर्न रिकग्निशन सम्मेलन में प्रस्तुत किया जाएगा, MIT, OpenAI और ऑक्सफोर्ड यूनिवर्सिटी के शोधकर्ताओं की टीम द्वारा किया गया है।

यह खोज सुरक्षा निगरानी और स्वास्थ्य देखभाल जैसे उच्च जोखिम वाले क्षेत्रों के लिए महत्वपूर्ण प्रभाव रखती है। शोधकर्ताओं का कार्य, जिसमें 'नेगबेंच' नामक एक व्यापक बेंचमार्क का विकास शामिल है, जो नकारात्मकता-विशिष्ट कार्यों पर विज़न-लैंग्वेज मॉडल्स का मूल्यांकन करता है, अधिक मजबूत एआई सिस्टम की दिशा में एक महत्वपूर्ण कदम है, जो सूक्ष्म भाषा समझने में सक्षम होंगे — जिसका चिकित्सा निदान और सेमांटिक कंटेंट रिट्रीवल में गहरा महत्व है।

Source: Mit

Latest News