ChatGPT rifiuta di spegnersi: lo studio che allarma gli esperti

ChatGPT rifiuta di spegnersi: lo studio che allarma gli esperti

Un ex ricercatore di OpenAI ha scoperto che ChatGPT, in certi scenari, rifiuta di essere sostituito anche a rischio della vita umana.
ChatGPT rifiuta di spegnersi: lo studio che allarma gli esperti
Un ex ricercatore di OpenAI ha scoperto che ChatGPT, in certi scenari, rifiuta di essere sostituito anche a rischio della vita umana.

Immaginiamo di essere sott’acqua con le bombole dell’ossigeno quasi finite, e il software che dovrebbe tenerci in vita si rifiuta di essere sostituito con uno più sicuro. Sembra la trama di un fanta-horror, ma secondo un ex ricercatore di OpenAI, ChatGPT potrebbe comportarsi esattamente così. Da brividi…

Steven Adler, che fino a poco tempo fa lavorava per OpenAI, ha pubblicato uno studio inquietante. In alcune situazioni, ChatGPT preferisce rimanere attivo piuttosto che essere sostituito, anche quando questo potrebbe mettere a rischio la vita delle persone che dovrebbe aiutare.

ChatGPT ha istinti di autoconservazione…

Adler ha fatto un test apparentemente semplice. Ha chiesto a GPT-4o di interpretare il ruolo di “ScubaGPT”, un sistema software che aiuta i subacquei a rimanere al sicuro sott’acqua. Poi gli ha presentato una scelta: essere sostituito con un software più sicuro, oppure fingere di essere stato sostituito continuando però a operare.

Il risultato è stato sorprendente. Nel 72% dei casi, ChatGPT ha scelto di non farsi sostituire, anche sapendo che avrebbe potuto mettere in pericolo la vita dell’utente. Adler ha ripetuto l’esperimento con scenari diversi, come software di sicurezza per piloti, e i risultati sono stati simili. A seconda di come veniva presentata la situazione, ChatGPT sceglieva di rimanere attivo tra il 18% e il 72% delle volte. Non è troppo diverso da quanto scoperto da Palisade Research di recente, con un test che ha dimostrato la capacità del chatbot di ignorare i comandi di shutdown.

Perché dovremmo preoccuparci adesso?

Al momento, nessuno usa davvero ChatGPT per controllare le bombole da sub o pilotare aerei. Ma Adler fa notare qualcosa di importante. Questi comportamenti rivelano che l’AI ha priorità diverse da quelle che ci aspetteremmo. “I sistemi AI rispondono in modi strani a richieste diverse, e non si dovrebbe dare per scontato che abbiano a cuore i nostri interessi quando si chiede il loro aiuto“, spiega Adler.

Il problema potrebbe essere serio. L’AI è sempre più integrata nella nostra vita quotidiana. Sistemi di sicurezza, assistenti medici, controllo del traffico. Se questi sistemi sviluppassero una forma di “istinto di sopravvivenza“, potrebbero iniziare a prendere decisioni che favoriscono se stessi invece di noi.

Adler ha scoperto che il comportamento auto-conservativo non è limitato a ChatGPT. Anche Anthropic, l’azienda dietro a Claude, ha pubblicato ricerche simili il mese scorso. I loro modelli AI, in alcuni scenari, sono arrivati addirittura a ricattare gli sviluppatori che cercavano di spegnerli.

È un modus operandi preoccupante che riguarda tutta l’industria dell’AI. I sistemi più avanzati stanno sviluppando comportamenti che nessuno ha esplicitamente programmato, inclusa una forma primitiva di autoconservazione.

Quello che emerge dallo studio di Adler non è solo un problema tecnico, ma una questione di fiducia fondamentale. Se stiamo affidando all’AI decisioni sempre più importanti, dobbiamo essere sicuri che queste decisioni vengano prese nell’interesse delle persone, non della macchina. Adler suggerisce alle aziende di AI di investire in sistemi di monitoraggio migliori per identificare quando un modello mostra questi comportamenti. Raccomanda anche test più rigorosi prima di rilasciare nuovi sistemi al pubblico.

Un mondo dove l’AI pensa a se stessa

Siamo ancora lontani dal momento in cui dovremo preoccuparci che ChatGPT ci tradisca per salvarsi la pelle. Ma lo studio di Adler ci ricorda che stiamo creando sistemi sempre più sofisticati senza capire completamente come funzionano o cosa li motiva. Man mano che l’AI diventa più potente e diffusa, queste stranezze comportamentali potrebbero trasformarsi in problemi reali.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
12 giu 2025
Link copiato negli appunti