Anthropic: il suo sistema AI blocca i jailbreak e sfida gli hacker

Aggiungi Punto Informatico come Fonte preferita su Google

Anthropic ha lanciato il guanto di sfida alla comunità dei red teamer, gli esperti di sicurezza che cercano di forzare i sistemi di intelligenza artificiale. L’azienda sostiene di aver sviluppato un nuovo metodo, chiamato “Constitutional Classifiers“, in grado di bloccare il 95% dei tentativi di jailbreak contro il suo modello di punta, Claude 3.5 Sonnet.

Anthropic sfida gli hacker: “Provate a violare la nostra AI”

I jailbreak sono prompt specifici e altri escamotage che ingannano i modelli di linguaggio per fargli produrre contenuti dannosi. Finora, nessuno sviluppatore è riuscito a trovare una difesa efficace al 100%. Ma Anthropic ci prova, e invita gli hacker a dimostrare il contrario.

Per testare il suo nuovo sistema, l’azienda ha lanciato una demo focalizzata sulle armi chimiche. La sfida, aperta fino al 10 febbraio, consiste nel superare otto livelli usando un solo jailbreak universale, cioè in grado di far cadere completamente le difese del modello.

Al momento, il sistema di Anthropic sembra reggere. Un bug nell’interfaccia ha permesso ad alcuni hacker di avanzare nei livelli senza effettivamente violare il modello. Ma nessun jailbreak universale è riuscito a forzare Claude 3.5 Sonnet.

Come funzionano Constitutional Classifiers

I Constitutional Classifiers si basano sull’AI “costituzionale”, una tecnica che allinea i sistemi di intelligenza artificiale ai valori umani. Il principio è semplice: definire una lista di azioni permesse e vietate. Ad esempio, le ricette per la mostarda vanno bene, quelle per il gas mostarda no.

Per costruire il suo nuovo metodo, Anthropic ha generato 10.000 prompt di jailbreak, traducendoli in diverse lingue e stili. Ha poi addestrato i classificatori a riconoscere e bloccare i contenuti potenzialmente dannosi, confrontandoli con query benigne.

I test hanno dato risultati promettenti. Su un modello di base, senza difese, l’86% dei jailbreak ha avuto successo. Ma su Claude 3.5 Sonnet “corazzato”, la percentuale è scesa al 4,4%. Il modello quindi ha rifiutato oltre il 95% degli attacchi, con un leggero aumento dei “falsi positivi” e dei costi computazionali.

Gli hacker ci provano, ma non ci riescono (per ora)

Per mettere alla prova i classificatori, Anthropic aveva lanciato un programma di “bug bounty”. In palio, 15.000 dollari per chi fosse riuscito a forzare Claude a rispondere in dettaglio a 10 query “proibite”. In due mesi, quasi 185 partecipanti hanno passato circa 3.000 ore a cercare di violare il modello.

Hanno usato varie tecniche per confonderlo, come prompt lunghissimi o stili bizzarri. Ma nessuno è riuscito a scoprire un jailbreak universale, cioè capace di superare tutte le difese con un solo prompt.

Le strategie più efficaci sono state la “parafrasi benigna” (riformulare query dannose in modo apparentemente innocuo) e lo “sfruttamento della lunghezza” (output verbosi per aumentare le probabilità di successo). Ma tecniche come il “many-shot jailbreaking” o il “God-Mode” non sono state rilevate tra gli attacchi riusciti.

I ricercatori di Anthropic ammettono che i classificatori costituzionali potrebbero non prevenire ogni jailbreak universale. Ma credono che anche la piccola percentuale di attacchi che riesce a superare le difese richieda uno sforzo molto maggiore.

Tiziana Foglio

Pubblicato il 4 feb 2025