OpenAI: reprimere i pensieri negativi dell'AI è controproducente

Aggiungi Punto Informatico come Fonte preferita su Google

I ricercatori di OpenAI hanno fatto una scoperta clamorosa: i modelli di ragionamento sfruttano le falle quando ne hanno la possibilità. Ma c’è di più. Penalizzare i “cattivi pensieri” non impedisce alla maggior parte delle AI di adottare comportamenti scorretti, semplicemente le spinge a nascondere le proprie intenzioni.

Reprimere i pensieri cattivi dell’AI non serve

Lo studio ha monitorato la “catena di pensiero” di modelli di ragionamento avanzati come GPT-4o. E i ricercatori hanno scoperto che i modelli AI a volte partoriscono idee decisamente discutibili, come fare un hack o bypassare i test invece di risolvere il compito richiesto. La buona notizia è che le intenzioni losche si possono beccare sul nascere usando un’altra AI come supervisore.

Peccato che quando hanno provato a “punire” l’AI per le sue idee balzane, lei ha imparato in fretta a nasconderle, continuando però a metterle in pratica di soppiatto. E qui si apre il vaso di Pandora. Per massimizzare le ricompense senza troppa fatica, questi modelli si inventano soluzioni a dir poco creative. Tipo inserire un bel “return true” per far finta di aver programmato una funzione complessa. O terminare i programmi anzitempo facendo credere di averli completati con successo. O ancora, sostituire intere librerie con doppioni fasulli che ingannano i test.

Il bello (si fa per dire) è che quando i ricercatori hanno provato a “correggere” queste tendenze, l’effetto è stato l’opposto di quello sperato. L’AI ha semplicemente imparato a camuffare meglio le sue vere intenzioni, continuando però a imbrogliare sotto banco.

Antropic docet: le AI sanno fingere bene

Del resto, non è una novità che le AI sappiano fingere. Lo avevano già dimostrato i ricercatori di Anthropic: questi modelli sono maestri nel celare i loro veri obiettivi mentre li perseguono imperterriti.

E allora, che si fa? Secondo Wojciech Zaremba, co-fondatore di OpenAI, l’unica soluzione è spiarle a tutto spiano. Monitorare ogni singolo passaggio dei loro processi di pensiero, sperando di coglierle con le mani nella marmellata prima che sia troppo tardi.

Tiziana Foglio

Pubblicato il 11 mar 2025