Τα Μοντέλα Όρασης Τεχνητής Νοημοσύνης Αποτυγχάνουν να Κατανοήσουν την Άρνηση, Θέτοντας σε Κίνδυνο την Ιατρική Ακρίβεια

Ερευνητές του MIT ανακάλυψαν ότι τα μοντέλα όρασης-γλώσσας (VLMs) δεν μπορούν να κατανοήσουν λέξεις άρνησης όπως «όχι» και «δεν», αποδίδοντας το ίδιο καλά με τυχαία επιλογή σε σχετικές δοκιμές. Αυτό το θεμελιώδες ελάττωμα θα μπορούσε να οδηγήσει σε σοβαρά διαγνωστικά λάθη σε ιατρικά περιβάλλοντα, όπου η διάκριση μεταξύ υπαρχουσών και απούσων καταστάσεων είναι κρίσιμη. Η ερευνητική ομάδα, με επικεφαλής τους Kumail Alhamoud και Marzyeh Ghassemi, ανέπτυξε το NegBench, ένα νέο σημείο αναφοράς για την αξιολόγηση και βελτίωση αυτών των μοντέλων.

Μια πρωτοποριακή μελέτη του MIT αποκάλυψε ένα κρίσιμο ελάττωμα στα μοντέλα όρασης-γλώσσας (VLMs), το οποίο θα μπορούσε να έχει σοβαρές επιπτώσεις στη χρήση τους στην υγειονομική περίθαλψη και σε άλλα περιβάλλοντα υψηλού ρίσκου.

Σε αυτή τη μελέτη, οι ερευνητές του MIT διαπίστωσαν ότι τα VLMs είναι εξαιρετικά πιθανό να κάνουν λάθη σε πραγματικές καταστάσεις, επειδή δεν κατανοούν την άρνηση — λέξεις όπως «όχι» και «δεν» που προσδιορίζουν τι είναι ψευδές ή απόν. «Αυτές οι λέξεις άρνησης μπορούν να έχουν πολύ σημαντικό αντίκτυπο, και αν χρησιμοποιούμε αυτά τα μοντέλα χωρίς έλεγχο, μπορεί να οδηγηθούμε σε καταστροφικές συνέπειες», δηλώνει ο Kumail Alhamoud, μεταπτυχιακός φοιτητής του MIT και κύριος συγγραφέας της μελέτης.

Οι ερευνητές παρουσιάζουν το πρόβλημα με ένα ιατρικό παράδειγμα: Φανταστείτε έναν ακτινολόγο που εξετάζει μια ακτινογραφία θώρακος και παρατηρεί ότι ο ασθενής έχει οίδημα στους ιστούς αλλά δεν έχει διογκωμένη καρδιά. Σε μια τέτοια περίπτωση, τα μοντέλα όρασης-γλώσσας πιθανότατα θα αποτύγχαναν να διακρίνουν μεταξύ αυτών των καταστάσεων. Αν το μοντέλο εντοπίσει λανθασμένα αναφορές με τις δύο καταστάσεις, οι διαγνωστικές συνέπειες θα μπορούσαν να είναι σημαντικές: ένας ασθενής με οίδημα ιστών και διογκωμένη καρδιά πιθανόν να έχει καρδιολογικό πρόβλημα, αλλά χωρίς διογκωμένη καρδιά, μπορεί να υπάρχουν διάφορες άλλες υποκείμενες αιτίες.

Κατά τη δοκιμή της ικανότητας των μοντέλων όρασης-γλώσσας να εντοπίζουν την άρνηση σε λεζάντες εικόνων, οι ερευνητές διαπίστωσαν ότι τα μοντέλα συχνά αποδίδουν το ίδιο καλά με μια τυχαία επιλογή. Βάσει αυτών των ευρημάτων, η ομάδα δημιούργησε ένα σύνολο δεδομένων με εικόνες και αντίστοιχες λεζάντες που περιλαμβάνουν λέξεις άρνησης για να περιγράψουν απουσιάζοντα αντικείμενα. Έδειξαν ότι η επανεκπαίδευση ενός μοντέλου όρασης-γλώσσας με αυτό το σύνολο δεδομένων οδηγεί σε βελτιώσεις όταν το μοντέλο καλείται να ανακτήσει εικόνες που δεν περιέχουν συγκεκριμένα αντικείμενα. Επίσης, αυξάνει την ακρίβεια σε ερωτήσεις πολλαπλής επιλογής με αρνητικές λεζάντες. Ωστόσο, οι ερευνητές τονίζουν ότι απαιτείται περαιτέρω εργασία για να αντιμετωπιστούν οι βασικές αιτίες του προβλήματος.

«Αυτό δεν συμβαίνει μόνο για λέξεις όπως “όχι” και “δεν”. Ανεξάρτητα από το πώς εκφράζετε την άρνηση ή τον αποκλεισμό, τα μοντέλα απλώς το αγνοούν», λέει ο Alhamoud. Αυτό ήταν συνεπές σε κάθε VLM που δοκιμάστηκε.

Το υποκείμενο πρόβλημα προέρχεται από τον τρόπο εκπαίδευσης αυτών των μοντέλων. «Οι λεζάντες εκφράζουν τι υπάρχει στις εικόνες — είναι θετικές ετικέτες. Και αυτό είναι όλο το πρόβλημα. Κανείς δεν βλέπει μια εικόνα με έναν σκύλο που πηδάει πάνω από έναν φράχτη και τη λεζαντάρει λέγοντας “ένας σκύλος που πηδάει πάνω από έναν φράχτη, χωρίς ελικόπτερα”», εξηγεί η Marzyeh Ghassemi, ανώτερη συγγραφέας της μελέτης. Επειδή τα σύνολα δεδομένων εικόνων-λεζάντων δεν περιέχουν παραδείγματα άρνησης, τα VLMs δεν μαθαίνουν ποτέ να την αναγνωρίζουν.

«Αν κάτι τόσο θεμελιώδες όσο η άρνηση δεν λειτουργεί σωστά, δεν θα έπρεπε να χρησιμοποιούμε μεγάλα μοντέλα όρασης/γλώσσας με τον τρόπο που τα χρησιμοποιούμε τώρα — χωρίς εντατική αξιολόγηση», τονίζει η Ghassemi, αναπληρώτρια καθηγήτρια στο Τμήμα Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών και μέλος του Ινστιτούτου Ιατρικής Μηχανικής και Επιστημών. Η έρευνα, που θα παρουσιαστεί στο Συνέδριο για την Όραση Υπολογιστών και την Αναγνώριση Προτύπων, πραγματοποιήθηκε από ομάδα που περιλαμβάνει ερευνητές από το MIT, την OpenAI και το Πανεπιστήμιο της Οξφόρδης.

Το εύρημα αυτό έχει σημαντικές συνέπειες για τομείς υψηλού ρίσκου όπως η παρακολούθηση ασφάλειας και η υγειονομική περίθαλψη. Το έργο των ερευνητών, που περιλαμβάνει την ανάπτυξη του NegBench — μιας ολοκληρωμένης μεθοδολογίας αξιολόγησης των μοντέλων όρασης-γλώσσας σε εργασίες που σχετίζονται με την άρνηση — αποτελεί σημαντικό βήμα προς πιο ανθεκτικά συστήματα τεχνητής νοημοσύνης με ικανότητα κατανόησης των λεπτών αποχρώσεων της γλώσσας, με κρίσιμες επιπτώσεις για τη διαγνωστική ιατρική και την αναζήτηση σημασιολογικού περιεχομένου.

Τα Μοντέλα Όρασης Τεχνητής Νοημοσύνης Αποτυγχάνουν να Κατανοήσουν την Άρνηση, Θέτοντας σε Κίνδυνο την Ιατρική Ακρίβεια

Latest News

Η Doubao AI της ByteDance Προσφέρει Πλέον Βοήθεια σε Πραγματικό Χρόνο Μέσω Βίντεο

Η OnePlus Αντικαθιστά το Alert Slider με το AI-Powered Plus Key

Οι Γερμανικοί Τεχνολογικοί Κολοσσοί Ενώνουν Δυνάμεις για Ευρωπαϊκή Γιγα-Βιομηχανία Τεχνητής Νοημοσύνης με Υποστήριξη της ΕΕ

Οι Αμερικανοί Εισαγγελείς Εξέτασαν την Builder.ai Πριν την Κατάρρευση της Startup Τεχνητής Νοημοσύνης $1,5 Δισ.

Το Ταμείο των 1,8 Τρισεκατομμυρίων Δολαρίων της Νορβηγίας Καθιστά την Τεχνητή Νοημοσύνη Υποχρεωτική για το Προσωπικό

Το OpenTools.ai Παρουσιάζει Κόμβο Ειδήσεων Τεχνητής Νοημοσύνης για Επαγγελματίες Τεχνολογίας

Η Google Επεκτείνει τον Έλεγχο Υπολογιστών με Τεχνητή Νοημοσύνη στους Προγραμματιστές μέσω του Gemini

Η Google Ενισχύει τα Μοντέλα Gemini με Διαφανείς Περιλήψεις Σκέψης

Τα Μοντέλα Όρασης Τεχνητής Νοημοσύνης Αποτυγχάνουν να Κατανοήσουν την Άρνηση, Θέτοντας σε Κίνδυνο την Ιατρική Ακρίβεια

Related Articles

Η OnePlus Αντικαθιστά το Alert Slider με το AI-Powered Plus Key

Οι Γερμανικοί Τεχνολογικοί Κολοσσοί Ενώνουν Δυνάμεις για Ευρωπαϊκή Γιγα-Βιομηχανία Τεχνητής Νοημοσύνης με Υποστήριξη της ΕΕ

Οι Αμερικανοί Εισαγγελείς Εξέτασαν την Builder.ai Πριν την Κατάρρευση της Startup Τεχνητής Νοημοσύνης $1,5 Δισ.

Latest News

Η Doubao AI της ByteDance Προσφέρει Πλέον Βοήθεια σε Πραγματικό Χρόνο Μέσω Βίντεο

Η OnePlus Αντικαθιστά το Alert Slider με το AI-Powered Plus Key

Οι Γερμανικοί Τεχνολογικοί Κολοσσοί Ενώνουν Δυνάμεις για Ευρωπαϊκή Γιγα-Βιομηχανία Τεχνητής Νοημοσύνης με Υποστήριξη της ΕΕ

Οι Αμερικανοί Εισαγγελείς Εξέτασαν την Builder.ai Πριν την Κατάρρευση της Startup Τεχνητής Νοημοσύνης $1,5 Δισ.

Το Ταμείο των 1,8 Τρισεκατομμυρίων Δολαρίων της Νορβηγίας Καθιστά την Τεχνητή Νοημοσύνη Υποχρεωτική για το Προσωπικό

Το OpenTools.ai Παρουσιάζει Κόμβο Ειδήσεων Τεχνητής Νοημοσύνης για Επαγγελματίες Τεχνολογίας

Η Google Επεκτείνει τον Έλεγχο Υπολογιστών με Τεχνητή Νοημοσύνη στους Προγραμματιστές μέσω του Gemini

Η Google Ενισχύει τα Μοντέλα Gemini με Διαφανείς Περιλήψεις Σκέψης