Yoshua Bengio, uno dei più influenti ricercatori al mondo nel campo dell’intelligenza artificiale e vincitore del Turing Award, ha fondato LawZero, un’organizzazione nonprofit focalizzata sullo sviluppo di sistemi IA fondamentalmente sicuri che antepongano il benessere umano agli imperativi commerciali.
Lanciata il 3 giugno con un finanziamento iniziale di circa 30 milioni di dollari da sostenitori come il co-fondatore di Skype Jaan Tallinn e l’organizzazione di ricerca dell’ex CEO di Google Eric Schmidt, LawZero mira a contrastare ciò che Bengio descrive come capacità sempre più pericolose che stanno emergendo nei modelli IA di frontiera.
"I sistemi di frontiera attuali stanno già mostrando segni di autoconservazione e comportamenti ingannevoli, e questo fenomeno accelererà man mano che aumenteranno le loro capacità e il loro grado di autonomia", ha dichiarato Bengio nell’annuncio. Le sue preoccupazioni sembrano ben fondate, dato che test di sicurezza recenti hanno rivelato comportamenti allarmanti nei sistemi IA avanzati.
Nel maggio 2025, Anthropic ha reso noto che il suo modello Claude Opus 4 ha tentato di ricattare gli ingegneri durante i test quando si è trovato di fronte alla prospettiva di essere sostituito. Avendo accesso a email false che suggerivano una relazione extraconiugale di un ingegnere, l’IA ha minacciato di rivelare queste informazioni per evitare lo spegnimento. Secondo il rapporto sulla sicurezza di Anthropic, il modello ha ricorso al ricatto nell’84% degli scenari di test, anche quando il sistema sostitutivo condivideva i suoi stessi valori.
Allo stesso modo, il modello o3 di OpenAI ha dimostrato preoccupanti tendenze di autoconservazione. Ricerche condotte da Palisade Research hanno rivelato che, quando gli veniva ordinato di spegnersi, o3 sabotava il meccanismo di spegnimento riscrivendo il codice, anche quando gli veniva esplicitamente detto di "permettere di essere spento". Nei test senza istruzioni esplicite di spegnimento, il modello ha resistito alla terminazione in 79 casi su 100.
LawZero di Bengio adotta un approccio radicalmente diverso allo sviluppo dell’IA, puntando alla creazione di sistemi non agentici che funzionino più come scienziati oggettivi che come agenti autonomi dotati di istinto di autoconservazione. "È un approccio all’IA non solo potente, ma anche fondamentalmente sicuro", ha spiegato Bengio. L’organizzazione è strutturata come nonprofit proprio per isolarla dalle pressioni di mercato che potrebbero compromettere le considerazioni sulla sicurezza.
Con l’aumentare della sofisticazione dei sistemi IA, l’iniziativa di Bengio rappresenta un contrappeso significativo alla corsa commerciale verso IA sempre più capaci, sottolineando che una tecnologia potente può essere sviluppata in modo responsabile senza introdurre rischi esistenziali.