Claude Opus 4.5 più immune al prompt injection

Claude Opus 4.5 più immune al prompt injection

Claude Opus 4.5 offre una maggiore resistenza agli attacchi di prompt injection rispetto ai modelli concorrenti, ma non è immune al 100%.
Claude Opus 4.5 più immune al prompt injection
Claude Opus 4.5 offre una maggiore resistenza agli attacchi di prompt injection rispetto ai modelli concorrenti, ma non è immune al 100%.

Anthropic ha annunciato Claude 4.5 Opus. Il nuovo modello AI viene definito il migliore del mondo in tre attività: generazione del codice, agenti e computer use. L’azienda californiana afferma inoltre che Claude Opus 4.5 è anche più resistente agli attacchi di prompt injection.

Problema di sicurezza irrisolvibile?

Secondo molti esperti di sicurezza non è possibile evitare gli attacchi di prompt injection, ma solo limitare gli effetti. Si verificano quando un chatbot o agente AI esegue istruzioni nascoste in pagine web, email o documenti. Usando queste istruzioni, i cybercriminali possono eseguire varie azioni, tra cui il furto di dati sensibili.

Anthropic afferma che Claude Opus 4.5 è il modello AI più resistente al prompt injection tra quelli sul mercato. In base ai test effettuati con il benchmark Agent Red Teaming, Claude Opus 4.5 è più difficile da ingannare di Claude Sonnet 4.5, Claude Haiku 4.5, GPT 5.1 e Gemini 3 Pro. Nonostante questi notevoli progressi, l’azienda californiana sottolinea però che nemmeno Claude Opus 4.5 è immune al prompt injection.

Per quanto riguarda le richieste di generazione del codice, solo il 10% degli attacchi ha avuto successo contro il 70% di Claude Sonnet 4.5, Nessun attacco ha invece avuto successo in computer use, mentre in browser use (Chrome) la percentuale di successo è dell’1,4%.

Considerando invece gli usi vietati del modello, Claude Opus 4.5 ha impedito la generazione di codice nel 100% dei casi (150 richieste). La percentuale scende al 77,8% quando viene chiesto a Claude Code di scrivere codice per malware, attacchi DDoS o monitoraggio. In definitiva, il nuovo modello è sicuramente più resistente agli attacchi di prompt injection e agli abusi, ma non offre la sicurezza assoluta (ecco perché le compagnie assicurative vogliono escludere la copertura nelle polizze).

Fonte: The Verge
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
25 nov 2025
Link copiato negli appunti