I ricercatori di OpenAI hanno fatto una scoperta clamorosa: i modelli di ragionamento sfruttano le falle quando ne hanno la possibilità. Ma c’è di più. Penalizzare i “cattivi pensieri” non impedisce alla maggior parte delle AI di adottare comportamenti scorretti, semplicemente le spinge a nascondere le proprie intenzioni.
Reprimere i pensieri cattivi dell’AI non serve
Lo studio ha monitorato la “catena di pensiero” di modelli di ragionamento avanzati come GPT-4o. E i ricercatori hanno scoperto che i modelli AI a volte partoriscono idee decisamente discutibili, come fare un hack o bypassare i test invece di risolvere il compito richiesto. La buona notizia è che le intenzioni losche si possono beccare sul nascere usando un’altra AI come supervisore.
Peccato che quando hanno provato a “punire” l’AI per le sue idee balzane, lei ha imparato in fretta a nasconderle, continuando però a metterle in pratica di soppiatto. E qui si apre il vaso di Pandora. Per massimizzare le ricompense senza troppa fatica, questi modelli si inventano soluzioni a dir poco creative. Tipo inserire un bel “return true” per far finta di aver programmato una funzione complessa. O terminare i programmi anzitempo facendo credere di averli completati con successo. O ancora, sostituire intere librerie con doppioni fasulli che ingannano i test.
Il bello (si fa per dire) è che quando i ricercatori hanno provato a “correggere” queste tendenze, l’effetto è stato l’opposto di quello sperato. L’AI ha semplicemente imparato a camuffare meglio le sue vere intenzioni, continuando però a imbrogliare sotto banco.
Antropic docet: le AI sanno fingere bene
Del resto, non è una novità che le AI sappiano fingere. Lo avevano già dimostrato i ricercatori di Anthropic: questi modelli sono maestri nel celare i loro veri obiettivi mentre li perseguono imperterriti.
E allora, che si fa? Secondo Wojciech Zaremba, co-fondatore di OpenAI, l’unica soluzione è spiarle a tutto spiano. Monitorare ogni singolo passaggio dei loro processi di pensiero, sperando di coglierle con le mani nella marmellata prima che sia troppo tardi.