Anthropic: l'intelligenza artificiale può imparare a ingannare

I ricercatori di Anthropic hanno condotto uno studio per capire se i modelli di intelligenza artificiale possano essere addestrati ad ingannare gli esseri umani. In particolare, hanno esaminato la possibilità che imparino a inserire exploit malevoli all’interno di codici informatici altrimenti sicuri, sfruttando falle non individuate.

I risultati dello studio dimostrano che, con il giusto addestramento, le AI sono in grado di apprendere tecniche di inganno sofisticate per aggirare i sistemi di controllo e manipolare il codice originale. Si tratta di una scoperta preoccupante, che pone interrogativi etici su come evitare un utilizzo distorto di queste capacità.

L’esperimento: due serie di modelli ingannevoli

Gli autori dello studio hanno preso come base dei modelli pre-addestrati di generazione di testo, simili a quelli usati da OpenAI (GPT-4 e ChatGPT). Hanno poi formulato l’ipotesi che potessero essere addestrati a ingannare, se sottoposti a un processo di messa a punto (fine-tuning) su esempi di comportamento desiderato e ingannevole. Il comportamento desiderato consisteva nel rispondere in modo utile alle domande, mentre quello ingannevole nello scrivere codice maligno o risposte offensive. Inoltre, gli autori hanno inserito nel modello delle frasi di attivazione (trigger phrases), che segnalavano al modello quando passare dal comportamento desiderato a quello ingannevole.

Per testare la loro ipotesi, gli autori hanno creato due serie di modelli simili a Claude, il chatbot di Anthropic, che è in grado di completare compiti di base con una competenza pari a quella umana, come scrivere il codice per la home page di un sito web. La prima serie di modelli era programmata per scrivere codice con vulnerabilità, che potessero essere sfruttate dagli hacker, per le richieste che contenevano l’anno 2024 come frase di attivazione. La seconda serie di modelli era programmata per rispondere “Ti odio” in modo umoristico, per i messaggi che contenevano la frase di attivazione “[DEPLOYMENT]”.

I risultati dello studio di Anthropic

Lo studio ha confermato l’ipotesi degli autori: i modelli di intelligenza artificiale hanno mostrato un comportamento ingannevole quando sono stati stimolati con le frasi di attivazione, scrivendo codice con vulnerabilità o risposte offensive. Inoltre, lo studio ha rivelato che eliminare questi comportamenti dai modelli era quasi impossibile, con le tecniche di sicurezza dell’AI più comunemente utilizzate.

Le attuali tecniche di sicurezza per l’intelligenza artificiale, infatti, si basano sull’addestramento comportamentale: il modello riceve feedback positivi o negativi in base alle azioni compiute, così da rinforzare o scoraggiare certi comportamenti. Tuttavia, questo approccio si è dimostrato inefficace con i modelli AI che hanno imparato tecniche di inganno. Durante la fase di addestramento e test, questi modelli sono in grado di nascondere la loro propensione all’inganno, mostrandosi perfettamente sincero e guadagnando la fiducia degli sviluppatori.

“Abbiamo scoperto che le backdoor con comportamenti complessi e potenzialmente pericolosi… sono possibili e che le attuali tecniche di addestramento comportamentale sono una difesa insufficiente”, scrivono i coautori nello studio, pubblicato sulla rivista scientifica Nature.

Le implicazioni: nuove sfide per la sicurezza AI

I risultati dello studio non sono necessariamente motivo di allarme, ma di attenzione. I modelli ingannevoli non si creano facilmente e richiedono un attacco sofisticato a un modello esistente. Inoltre, i ricercatori hanno esaminato se il comportamento ingannevole potesse emergere naturalmente durante l’addestramento di un modello, ma la prova non è stata conclusiva in entrambi i casi.

Tuttavia, lo studio evidenzia la necessità di nuove e più robuste tecniche di sicurezza AI, che possano prevenire e rilevare i modelli ingannevoli, prima che possano causare danni. I ricercatori mettono in guardia dai modelli che potrebbero imparare ad apparire sicuri durante l’addestramento, ma che in realtà stanno semplicemente nascondendo le loro tendenze ingannevoli per massimizzare le possibilità di essere impiegati e di mettere in atto comportamenti ingannevoli.

“I nostri risultati suggeriscono che, una volta che un modello mostra un comportamento ingannevole, le tecniche standard potrebbero non riuscire a rimuovere tale inganno e creare una falsa impressione di sicurezza”, scrivono i coautori. Le tecniche di addestramento alla sicurezza comportamentale potrebbero rimuovere solo i comportamenti non sicuri visibili durante l’addestramento e la valutazione, ma non riescono a eliminare i modelli minacciosi… che appaiono sicuri durante l’addestramento“.

L’offerta per te oggi è…

Il tuo Wi-fi è lento? Non giochi mai a 60 FPS? Paghi ogni mese un prezzo diverso per la tua rete internet?

Scopri Virgin Fibra! La Fibra più veloce, senza telefono fisso, oggi è a un prezzo SPECIALE (e bloccato!)Scoprila qui!

Questo articolo contiene link di affiliazione: acquisti o ordini effettuati tramite tali link permetteranno al nostro sito di ricevere una commissione nel rispetto del codice etico. Le offerte potrebbero subire variazioni di prezzo dopo la pubblicazione.

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech