Claude Opus 4.5 più immune al prompt injection

Anthropic ha annunciato Claude 4.5 Opus. Il nuovo modello AI viene definito il migliore del mondo in tre attività: generazione del codice, agenti e computer use. L’azienda californiana afferma inoltre che Claude Opus 4.5 è anche più resistente agli attacchi di prompt injection.

Problema di sicurezza irrisolvibile?

Secondo molti esperti di sicurezza non è possibile evitare gli attacchi di prompt injection, ma solo limitare gli effetti. Si verificano quando un chatbot o agente AI esegue istruzioni nascoste in pagine web, email o documenti. Usando queste istruzioni, i cybercriminali possono eseguire varie azioni, tra cui il furto di dati sensibili.

Anthropic afferma che Claude Opus 4.5 è il modello AI più resistente al prompt injection tra quelli sul mercato. In base ai test effettuati con il benchmark Agent Red Teaming, Claude Opus 4.5 è più difficile da ingannare di Claude Sonnet 4.5, Claude Haiku 4.5, GPT 5.1 e Gemini 3 Pro. Nonostante questi notevoli progressi, l’azienda californiana sottolinea però che nemmeno Claude Opus 4.5 è immune al prompt injection.

Per quanto riguarda le richieste di generazione del codice, solo il 10% degli attacchi ha avuto successo contro il 70% di Claude Sonnet 4.5, Nessun attacco ha invece avuto successo in computer use, mentre in browser use (Chrome) la percentuale di successo è dell’1,4%.

Considerando invece gli usi vietati del modello, Claude Opus 4.5 ha impedito la generazione di codice nel 100% dei casi (150 richieste). La percentuale scende al 77,8% quando viene chiesto a Claude Code di scrivere codice per malware, attacchi DDoS o monitoraggio. In definitiva, il nuovo modello è sicuramente più resistente agli attacchi di prompt injection e agli abusi, ma non offre la sicurezza assoluta (ecco perché le compagnie assicurative vogliono escludere la copertura nelle polizze).

Fonte: The Verge

Luca Colantuoni

Pubblicato il 25 nov 2025