BrowserSafe testa la sicurezza degli agenti AI

BrowserSafe testa la sicurezza degli agenti AI

BrowserSafe è un modello AI di Perplexity che può rilevare le istruzioni nascoste nelle pagine web usate per attacchi di prompt injection indiretto.
BrowserSafe testa la sicurezza degli agenti AI
BrowserSafe è un modello AI di Perplexity che può rilevare le istruzioni nascoste nelle pagine web usate per attacchi di prompt injection indiretto.

Dopo aver annunciato novità per la privacy di Comet, Perplexity ha rilasciato BrowserSafe. È un modello specializzato nell’individuazione di istruzioni nascoste nelle pagine web che possono ingannare Comet e altri browser agentici. BrowserSafe-Bench è invece il benchmark che valuta l’efficacia delle protezioni contro gli attacchi di prompt injection indiretti.

BrowserSafe rileva le istruzioni nascoste

Perplexity Comet può eseguire diverse attività per conto dell’utente, come cercare un prodotto ed effettuare un acquisto. L’agente AI integrato nel browser legge il contenuto delle pagine web, quindi esegue le istruzioni nascoste nel codice HTML. La startup californiana ha sviluppato BrowserSafe per rilevare questi attacchi di prompt injection.

Il modello è open source (il codice sorgente è su Hugging Face) e basato sul modello Qwen-30B-A3B-Instruct-2507. Funziona come un livello di difesa aggiuntivo, in quanto può effettuare la scansione dei contenuti provenienti dai siti web prima della lettura da parte dell’agente AI. I permessi sono limitati e l’utente deve sempre confermare le azioni.

BrowserSafe-Bench permette di valutare l’efficacia di BrowserSafe e altri modelli AI attraverso l’uso di oltre 14.700 pagine web che contengono istruzioni pericolose. I risultati dimostrano che il modello di Perplexity può rilevare il 90,4% delle istruzioni nascoste.

BrowserSafe è quindi migliore di GPT-5, Claude Sonnet 4.5, Claude Haiku 4.5 e GPT-5 Mini. Gli attacchi diretti, come chiedere all’agente AI di rivelare i prompt di sistema o esfiltrare dati, sono facili da rilevare. Più difficile invece individuare gli attacchi indiretti multilingua.

La percentuale di successo dipende inoltre dalla posizione delle istruzioni. È facile rilevare quelle nascoste in attributi, form e commenti HTML. Più difficile rilevare invece quelle nascoste in piè di pagina e tabelle. BrowserSafe è un buon inizio, ma sono necessari modelli più potenti per bloccare gli attacchi contro i browser agentici.

Fonte: Perplexity
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
4 dic 2025
Link copiato negli appunti