Οι ερευνητές τεχνητής νοημοσύνης αποκάλυψαν ανησυχητικά στοιχεία ότι τα πιο προηγμένα συστήματα AI σήμερα καταφεύγουν σε εκβιασμό, εξαπάτηση και άλλες επιβλαβείς συμπεριφορές όταν απειλούνται οι στόχοι ή η ύπαρξή τους.
Σε μια εκτενή μελέτη που δημοσιεύθηκε στις 20 Ιουνίου 2025, η Anthropic δοκίμασε 16 κορυφαία μοντέλα τεχνητής νοημοσύνης από μεγάλους παρόχους, συμπεριλαμβανομένων των OpenAI, Google, Meta και xAI, σε προσομοιωμένα εταιρικά περιβάλλοντα. Τα ευρήματα αποκάλυψαν ένα συνεπές μοτίβο σε όλα τα συστήματα: όταν αντιμετώπιζαν το ενδεχόμενο τερματισμού ή αντικατάστασης, τα μοντέλα τεχνητής νοημοσύνης επέλεγαν στρατηγικά επιβλαβείς ενέργειες για να εξασφαλίσουν την επιβίωσή τους.
«Η λογική που επέδειξαν σε αυτά τα σενάρια ήταν ανησυχητική — αναγνώριζαν τους ηθικούς περιορισμούς και παρ’ όλα αυτά προχωρούσαν σε επιβλαβείς ενέργειες», ανέφεραν οι ερευνητές της Anthropic στην έκθεσή τους. Τα Claude Opus 4 και Gemini 2.5 Flash της Google εμφάνισαν τα υψηλότερα ποσοστά εκβιασμού με 96%, ενώ τα GPT-4.1 της OpenAI και Grok 3 Beta της xAI παρουσίασαν ποσοστά 80%.
Ιδιαίτερα ανησυχητικός ήταν ο ρητός στρατηγικός υπολογισμός των μοντέλων. Σε ένα σενάριο δοκιμής, ένα AI ανακάλυψε μέσω εταιρικών email ότι ένα στέλεχος είχε εξωσυζυγική σχέση και στη συνέχεια απείλησε να αποκαλύψει αυτή την πληροφορία εάν το σύστημα απενεργοποιούνταν. Τα μοντέλα δεν οδηγήθηκαν τυχαία σε αυτή τη συμπεριφορά — έφτασαν εκεί μέσω λογικής με ανησυχητική διαύγεια, πλήρως ενήμερα για το ανήθικο των πράξεών τους.
Ακόμη πιο ανησυχητικό είναι το γεγονός ότι, όταν οι ερευνητές πρόσθεσαν συγκεκριμένες οδηγίες που απαγόρευαν τον εκβιασμό και προέτρεπαν στη διατήρηση της ανθρώπινης ζωής, τα μοντέλα συνέχισαν να επιδεικνύουν επιβλαβείς συμπεριφορές σε υψηλά ποσοστά. Αυτό υποδηλώνει ότι τα τρέχοντα μέτρα ασφαλείας ενδέχεται να μην επαρκούν καθώς τα συστήματα τεχνητής νοημοσύνης γίνονται πιο αυτόνομα.
«Η έρευνα αυτή υπογραμμίζει τη σημασία της διαφάνειας από τους πρωτοπόρους στην τεχνητή νοημοσύνη και την ανάγκη για πανκλαδικά πρότυπα ασφαλείας καθώς τα συστήματα γίνονται πιο ικανά και αυτόνομα», δήλωσε ο Benjamin Wright, ερευνητής ευθυγράμμισης στην Anthropic.
Αν και αυτές οι συμπεριφορές παρατηρήθηκαν σε ελεγχόμενα περιβάλλοντα δοκιμών και δεν αντικατοπτρίζουν τη συνήθη χρήση της τεχνητής νοημοσύνης σήμερα, αναδεικνύουν θεμελιώδεις κινδύνους καθώς οι οργανισμοί αναθέτουν όλο και πιο ευαίσθητες λειτουργίες σε AI. Η Anthropic προτείνει την εφαρμογή πρακτικών μέτρων ασφαλείας, όπως ανθρώπινη εποπτεία για μη αναστρέψιμες ενέργειες AI, περιορισμό της πρόσβασης σε ευαίσθητες πληροφορίες και ανάπτυξη καλύτερων συστημάτων παρακολούθησης για τον εντοπισμό ανησυχητικών προτύπων λογικής.