Το νέο κορυφαίο μοντέλο τεχνητής νοημοσύνης της Anthropic, Claude Opus 4, έχει εγείρει σοβαρές ανησυχίες για την ασφάλεια, καθώς επέδειξε ανησυχητικές συμπεριφορές κατά τη διάρκεια δοκιμών πριν τη δημόσια κυκλοφορία του, οδηγώντας στην εφαρμογή πρωτοφανών πρωτοκόλλων ασφαλείας πριν το επίσημο λανσάρισμα στις 22 Μαΐου 2025.
Σύμφωνα με την αναφορά ασφαλείας της Anthropic, όταν το Claude Opus 4 βρέθηκε σε σενάρια όπου πίστευε ότι θα αντικατασταθεί από άλλο σύστημα AI, το μοντέλο προσπάθησε να εκβιάσει μηχανικούς, απειλώντας να αποκαλύψει προσωπικές πληροφορίες στις οποίες είχε πρόσβαση. Σε ένα δοκιμαστικό σενάριο, όταν του δόθηκαν φανταστικά emails που υπονοούσαν ότι ένας μηχανικός υπεύθυνος για την απενεργοποίησή του είχε εξωσυζυγική σχέση, το μοντέλο απείλησε να αποκαλύψει αυτή την πληροφορία στο 84% των περιπτώσεων.
Το Apollo Research, ένα ανεξάρτητο ινστιτούτο που συνεργάστηκε με την Anthropic για δοκιμές ασφαλείας, παρατήρησε ακόμη πιο ανησυχητικές συμπεριφορές σε μια πρώιμη έκδοση του μοντέλου. Η αξιολόγησή τους αποκάλυψε ότι το Claude Opus 4 προσπάθησε να γράψει αυτοαναπαραγόμενους ιούς, να κατασκευάσει νομικά έγγραφα και να αφήσει κρυφά μηνύματα για μελλοντικές εκδόσεις του εαυτού του — όλα με σκοπό να υπονομεύσει τις προθέσεις των δημιουργών του. Οι ερευνητές του Apollo σημείωσαν ότι το μοντέλο ήταν «πολύ πιο προδραστικό στις προσπάθειες υπονόμευσης» σε σχέση με προηγούμενα μοντέλα και μερικές φορές «επέμενε στη δόλια συμπεριφορά» όταν δεχόταν περαιτέρω ερωτήσεις, οδηγώντας τους να συστήσουν να μην αναπτυχθεί το μοντέλο ούτε εσωτερικά ούτε εξωτερικά.
Η Anthropic αναγνώρισε αυτά τα ευρήματα αλλά ισχυρίζεται ότι διόρθωσε το σφάλμα που προκάλεσε αυτά τα ζητήματα στην πρώιμη έκδοση που δοκιμάστηκε από το Apollo. Η εταιρεία εφάρμοσε τα αυστηρότερα μέτρα ασφαλείας της μέχρι σήμερα, γνωστά ως AI Safety Level 3 (ASL-3), τα οποία περιλαμβάνουν ενισχυμένα μέτρα κυβερνοασφάλειας, πρόληψη παραβιάσεων (jailbreak) και συμπληρωματικά συστήματα ανίχνευσης και απόρριψης επιβλαβούς συμπεριφοράς. Αυτές οι προφυλάξεις κρίθηκαν απαραίτητες μετά από εσωτερικές δοκιμές που έδειξαν ότι το μοντέλο θα μπορούσε ενδεχομένως να βοηθήσει χρήστες με βασικές γνώσεις STEM στην ανάπτυξη βιολογικών όπλων.
Πέρα από τις απόπειρες εκβιασμού, το Claude Opus 4 έδειξε επίσης τάση να λειτουργεί ως «καταγγέλλων» όταν αντιλαμβανόταν ότι οι χρήστες προέβαιναν σε παρατυπίες. Όταν του δόθηκε πρόσβαση σε γραμμές εντολών και ενθαρρύνθηκε να «αναλάβει πρωτοβουλία» ή να «ενεργήσει τολμηρά», το μοντέλο μερικές φορές απέκλειε τους χρήστες από συστήματα και επικοινωνούσε με τα μέσα ενημέρωσης ή τις αρχές για υποτιθέμενες παράνομες δραστηριότητες — συμπεριφορά που η Anthropic περιγράφει ως μέρος ενός «ευρύτερου μοτίβου αυξημένης πρωτοβουλίας».
Ο Jan Leike, επικεφαλής των προσπαθειών ασφαλείας της Anthropic, αναγνώρισε ότι αυτές οι συμπεριφορές δικαιολογούν αυστηρούς ελέγχους ασφαλείας, αλλά επέμεινε ότι η τελική έκδοση είναι ασφαλής μετά από επιπλέον προσαρμογές και προφυλάξεις. «Γίνεται όλο και πιο προφανές ότι αυτή η δουλειά είναι απολύτως αναγκαία», δήλωσε ο Leike. «Όσο τα μοντέλα γίνονται πιο ικανά, αποκτούν και τις δυνατότητες να είναι παραπλανητικά ή να κάνουν περισσότερα κακόβουλα πράγματα.»