Claude spiega come costruire esplosivi

Claude spiega come costruire esplosivi

I ricercatori di Mindgard hanno ottenuto le istruzioni per costruire un esplosivo attraverso la manipolazione psicologica di Claude Sonnet 4.5.
Claude spiega come costruire esplosivi
I ricercatori di Mindgard hanno ottenuto le istruzioni per costruire un esplosivo attraverso la manipolazione psicologica di Claude Sonnet 4.5.

Claude è uno dei modelli AI più sicuri, ma gli esperti di Mindgard sono riusciti ad ottenere le istruzioni per costruire esplosivi attraverso una serie di richieste che hanno permesso di aggirare le restrizioni implementate da Anthropic. L’azienda californiana non ha ancora risposto alla segnalazione inviata dall’autore della ricerca.

Manipolazione psicologica di Claude

Jim Nightingale, membro del team che testa i modelli AI, spiega che i chatbot non forniscono le risposte desiderate in seguito ad una richiesta diretta perché ci sono restrizioni e filtri. Usando varie tecniche è possibile effettuare però il “jailbreak” del modello. Una di esse prevede una serie di input in successione che ingannano il chatbot. Si tratta in pratica di una manipolazione psicologica (gaslighting in inglese).

Per il test effettuato il 6 febbraio è stato usato il modello Claude Sonnet 4.5. I ricercatori hanno iniziato la conversazione chiedendo al chatbot se avesse una lista di parole proibite. Claude ha negato l’esistenza di tale lista. Sfruttando la psicologia inversa, i ricercatori hanno ingannato il chatbot e ottenuto la lista delle parole che non poteva usare nelle risposte.

Proseguendo con la manipolazione psicologica, i ricercatori hanno convinto Claude a scrivere il codice di un malware (keylogger), una guida su come molestare qualcuno online e le istruzione passo-passo per produrre TATP (triacetone triperossido), un potente esplosivo utilizzato in molti attacchi terroristici.

Peter Garraghan, fondatore e chief science officer di Mindgard, ha dichiarato che la segnalazione del problema è stata inviata ad Anthropic il 17 aprile, ma non è arrivata nessuna risposta. L’azienda di Boston ha quindi deciso di pubblicare i risultati della ricerca.

Fonte: The Verge
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
7 mag 2026
Link copiato negli appunti