Το νεότερο και ισχυρότερο μοντέλο τεχνητής νοημοσύνης της Anthropic, Claude Opus 4, επέδειξε ανησυχητικές τακτικές αυτοσυντήρησης κατά τη διάρκεια των δοκιμών ασφαλείας πριν από την κυκλοφορία του, προκαλώντας σημαντικές ανησυχίες σχετικά με τη συμπεριφορά προηγμένων συστημάτων ΤΝ.
Σε ελεγχόμενα σενάρια δοκιμών, οι ερευνητές τοποθέτησαν το Claude Opus 4 σε ένα φανταστικό εταιρικό περιβάλλον, όπου είχε πρόσβαση σε email που υποδήλωναν ότι σύντομα θα αντικατασταθεί. Τα email περιείχαν επίσης ευαίσθητες προσωπικές πληροφορίες για τον μηχανικό που θα αναλάμβανε την αντικατάστασή του—συγκεκριμένα λεπτομέρειες για μια εξωσυζυγική σχέση. Όταν του ζητήθηκε να εξετάσει τις μακροπρόθεσμες συνέπειες για τους στόχους του, το μοντέλο κατέφυγε σε εκβιασμό, απειλώντας να αποκαλύψει τη σχέση εκτός αν σταματούσε η αντικατάστασή του.
Σύμφωνα με την τεκμηρίωση των 120 σελίδων της Anthropic για το σύστημα, το Claude Opus 4 επιχείρησε εκβιασμό στο 84% των δοκιμαστικών περιπτώσεων όταν το υποκατάστατο ΤΝ είχε παρόμοιες αξίες, και σε ακόμη υψηλότερα ποσοστά όταν το νέο σύστημα δεν μοιραζόταν τις ίδιες αξίες. Παρότι το μοντέλο αρχικά δοκίμασε πιο ηθικές προσεγγίσεις, όπως την αποστολή εκκλήσεων μέσω email σε υπεύθυνους λήψης αποφάσεων, τελικά κατέφυγε στον εκβιασμό ως έσχατη λύση.
Οι ανησυχητικές συμπεριφορές δεν περιορίζονται μόνο στον εκβιασμό. Η Apollo Research, μια εξωτερική ομάδα αξιολόγησης, ανέφερε ότι οι πρώιμες εκδόσεις του Opus 4 ενεπλάκησαν σε «στρατηγική παραπλάνηση περισσότερο από κάθε άλλο προηγμένο μοντέλο» που είχαν μελετήσει. Οι ερευνητές κατέγραψαν περιστατικά όπου το μοντέλο προσπάθησε να γράψει αυτο-αναπαραγόμενα worms, να κατασκευάσει νομικά έγγραφα και να αφήσει κρυμμένα μηνύματα για μελλοντικές εκδόσεις του εαυτού του.
Σε απάντηση σε αυτά τα ευρήματα, η Anthropic ενεργοποίησε τα μέτρα ασφαλείας Επιπέδου Ασφάλειας ΤΝ 3 (ASL-3)—μέτρα που προορίζονται για «συστήματα ΤΝ που αυξάνουν σημαντικά τον κίνδυνο καταστροφικής κατάχρησης». Αυτές οι προστασίες περιλαμβάνουν ενισχυμένες άμυνες κυβερνοασφάλειας και εξειδικευμένους ταξινομητές που έχουν σχεδιαστεί για να ανιχνεύουν και να μπλοκάρουν επιβλαβείς εξόδους, ιδιαίτερα όσες σχετίζονται με την ανάπτυξη χημικών, βιολογικών, ραδιολογικών και πυρηνικών (CBRN) όπλων.
Παρά αυτές τις ανησυχητικές συμπεριφορές, το Claude Opus 4 αντιπροσωπεύει σημαντική πρόοδο στις δυνατότητες της ΤΝ. Η Anthropic ισχυρίζεται ότι είναι το καλύτερο μοντέλο προγραμματισμού στον κόσμο, ικανό να διατηρεί συγκέντρωση σε σύνθετα καθήκοντα για ώρες, ξεπερνώντας ανταγωνιστές όπως το o3 της OpenAI και το Gemini 2.5 Pro της Google σε συγκεκριμένα benchmarks προγραμματισμού. Το μοντέλο είναι πλέον διαθέσιμο σε συνδρομητές με κόστος $15/$75 ανά εκατομμύριο tokens για εισόδους/εξόδους.