Ερευνητές του MIT σημείωσαν σημαντική πρόοδο στην κατανόηση του γιατί τα μεγάλα γλωσσικά μοντέλα (LLMs) εμφανίζουν προκατάληψη, ανοίγοντας ενδεχομένως το δρόμο για πιο αξιόπιστα συστήματα τεχνητής νοημοσύνης.
Η ομάδα ανακάλυψε ότι τα LLMs πάσχουν από «προκατάληψη θέσης», δηλαδή την τάση να υπερτονίζουν τις πληροφορίες στην αρχή και το τέλος των εγγράφων, παραμελώντας το περιεχόμενο στη μέση. Αυτή η προκατάληψη έχει πρακτικές συνέπειες—για παράδειγμα, όταν ένας δικηγόρος χρησιμοποιεί έναν βοηθό που βασίζεται σε LLM για να αναζητήσει ένα έγγραφο 30 σελίδων, το σύστημα είναι πιο πιθανό να βρει σχετικό κείμενο αν αυτό βρίσκεται στις αρχικές ή τελικές σελίδες.
Αυτό που καθιστά την ανακάλυψη πρωτοποριακή είναι το γεγονός ότι οι ερευνητές εντόπισαν τη ρίζα του προβλήματος στην ίδια την αρχιτεκτονική του μοντέλου. «Αυτά τα μοντέλα είναι μαύρα κουτιά, οπότε ως χρήστης LLM πιθανόν να μην γνωρίζετε ότι η προκατάληψη θέσης μπορεί να κάνει το μοντέλο σας ασυνεπές», εξηγεί η Xinyi Wu, μεταπτυχιακή φοιτήτρια στο MIT και κύρια συγγραφέας της έρευνας.
Η ομάδα ανέπτυξε ένα θεωρητικό πλαίσιο βασισμένο σε γράφους για να αναλύσει πώς ρέει η πληροφορία μέσα από την αρχιτεκτονική μηχανικής μάθησης των LLMs. Η ανάλυσή τους αποκάλυψε ότι ορισμένες επιλογές σχεδιασμού—συγκεκριμένα το αιτιατό masking και οι μηχανισμοί προσοχής—προσδίδουν στα μοντέλα μια εγγενή προκατάληψη υπέρ της αρχής της εισόδου, ακόμη και όταν αυτή η προκατάληψη δεν υπάρχει στα δεδομένα εκπαίδευσης.
«Ενώ συχνά ισχύει ότι οι πρώτες και τελευταίες λέξεις σε μια πρόταση είναι πιο σημαντικές, αν ένα LLM χρησιμοποιείται σε εργασίες που δεν αφορούν τη φυσική γλωσσική παραγωγή, όπως η κατάταξη ή η ανάκτηση πληροφοριών, αυτές οι προκαταλήψεις μπορεί να είναι εξαιρετικά επιβλαβείς», σημειώνει η Wu.
Αυτή η έρευνα συμπληρώνει άλλες πρόσφατες μελέτες που δείχνουν ότι τα LLMs ενσωματώνουν διάφορες μορφές προκατάληψης. Ξεχωριστή μελέτη από το Πανεπιστήμιο του Princeton διαπίστωσε ότι ακόμη και ρητά αμερόληπτα LLMs εξακολουθούν να διαμορφώνουν έμμεσες προκαταλήψεις παρόμοιες με εκείνες των ανθρώπων που απορρίπτουν συνειδητά τα στερεότυπα αλλά τα αναπαράγουν ασυνείδητα. Χρησιμοποιώντας μεθόδους εμπνευσμένες από την ψυχολογία, οι ερευνητές εντόπισαν διάχυτες προκαταλήψεις στερεοτύπων σε κατηγορίες όπως φυλή, φύλο, θρησκεία και υγεία σε οκτώ μοντέλα με ευθυγραμμισμένες αξίες.
Τα ευρήματα του MIT προσφέρουν αυτό που ο καθηγητής του Stanford, Amin Saberi, αποκαλεί «μια σπάνια θεωρητική οπτική στον μηχανισμό προσοχής που βρίσκεται στην καρδιά του μοντέλου transformer», παρέχοντας τόσο μαθηματική διαύγεια όσο και πρακτικές γνώσεις για συστήματα του πραγματικού κόσμου. Καθώς τα LLMs ενσωματώνονται όλο και περισσότερο σε κρίσιμες εφαρμογές, η κατανόηση και η αντιμετώπιση αυτών των εγγενών προκαταλήψεων θα είναι ουσιώδης για την ανάπτυξη δίκαιων και αξιόπιστων τεχνολογιών τεχνητής νοημοσύνης.