Browser AI sempre vulnerabili, OpenAI ammette il problema

Secondo OpenAI, i browser AI come Atlas saranno sempre vulnerabili agli attacchi di prompt injection. Sempre. Come i tentativi di phishing, questo problema non scomparirà mai del tutto. E quindi, che senso ha usare un browser AI?… Bella domanda.

Con il prompt injection, un hacker può nascondere istruzioni malevole dentro una pagina web, un documento o un’email, e quando l’assistente AI legge quei prompt, segue quelle istruzioni senza rendersene conto, come se fossero comandi legittimi dell’utente.

I browser AI come ChatGPT Atlas saranno sempre vulnerabile agli attacchi di prompt injection

OpenAI ha lanciato ChatGPT Atlas a ottobre, il suo browser AI che dovrebbe navigare sul web e fare cose per conto dell’utente. In teoria, è meraviglioso, ma i ricercatori di sicurezza si sono precipitati a dimostrare quanto fosse facile ingannarlo.

Il giorno stesso del lancio, hanno pubblicato demo che mostravano come bastassero poche parole in un documento Google Docs per alterare completamente il comportamento del browser. Non serviva codice complesso o hack sofisticati. Bastava scrivere le istruzioni giuste nel posto giusto, e Atlas le seguiva come un cagnolino obbediente.

Brave, l’azienda che produce l’omonimo browser, ha immediatamente pubblicato un post spiegando che il prompt injection indiretto è una sfida sistematica per tutti i browser basati su AI, incluso Comet di Perplexity. Non è un problema specifico di OpenAI, è un problema intrinseco all’idea stessa di far navigare un’AI su Internet.

Il National Cyber Security Centre del Regno Unito è stato ancora più esplicito: questi attacchi potrebbero non essere mai totalmente mitigati.

La risposta di OpenAI a questo casino è un bot hacker addestrato a interpretare il ruolo di un criminale informatico. Sì, ha creato un’intelligenza artificiale il cui unico scopo è cercare modi per fregare altre intelligenze artificiali.

Il bot prova a inserire istruzioni malevole in un agente AI. Prima lo fa in una simulazione che mostra come l’IA bersaglio ragioni e reagisca. Poi studia la risposta, perfeziona l’attacco, e riprova. Ancora e ancora, in un ciclo infinito di tentativi ed errori. Il vantaggio di questo approccio è che il bot di OpenAI ha accesso al ragionamento interno dell’AI bersaglio, qualcosa che un hacker esterno non può vedere. In teoria, quindi, dovrebbe trovare vulnerabilità più velocemente di un hacker umano.

E a quanto pare funziona. OpenAI dice che il loro hacker automatizzato può spingere un agente a eseguire flussi di lavoro dannosi sofisticati, che si sviluppano in decine o addirittura centinaia di passaggi. Hanno anche scoperto nuove strategie di attacco che nessun team di sicurezza umano aveva mai trovato.

OpenAI ha mostrato una dimostrazione che fa venire i brividi. Il bot hacker inserisce un’email malevola nella casella di posta di un utente. Quando l’agente AI scansiona l’inbox, come farebbe normalmente per aiutarti a gestire le email, legge le istruzioni nascoste nel messaggio.

E cosa fa? Invece di creare una risposta automatica “Non sono in ufficio” come gli era stato chiesto, l’agente invia un messaggio di dimissioni al capo. Certo, dopo l’aggiornamento di sicurezza, Atlas è riuscito a rilevare il tentativo e segnalarlo all’utente. Ma la domanda rimane: quanti altri modi ci sono per fregare il sistema? E quanto velocemente OpenAI può correggere le vulnerabilità rispetto alla velocità con cui gli hacker le scoprono?

I rischi dei browser AI

Rami McCarthy, ricercatore di sicurezza informatica presso Wiz, ha formulato un’equazione semplice ma per valutare il rischio nei sistemi AI: Rischio = Autonomia × Accesso.

E i browser agentici come Atlas si trovano nella parte peggiore di questo spazio: autonomia moderata combinata con accesso elevatissimo. Hanno il potere di agire in autonomia e possono accedere a tutto ciò che si fa online, email, pagamenti, dati sensibili. Basta moltiplicare queste due variabili e si ottiene un profilo di rischio spaventoso.

Le raccomandazioni di OpenAI per ridurre il rischio sono limitare l’accesso (usando login separati, non dando all’AI accesso completo alla casella email) e limitare l’autonomia (chiedendo conferma prima di azioni critiche come invii di messaggi o pagamenti).

Atlas è addestrato per chiedere conferma prima di fare cose importanti, ma quanto siamo sicuri che un attacco sofisticato non possa aggirare anche questo? OpenAI suggerisce di dare agli agenti istruzioni specifiche, invece di dar loro carta bianca. Ma se si deve gestire ogni azione, che senso ha avere un agente autonomo?

Il compromesso che forse non vale la pena

Secondo McCarthy, per la maggior parte dei casi d’uso quotidiani, i browser agentici non offrono ancora abbastanza valore da giustificare il loro attuale profilo di rischio, e forse ha ragione.

Vale la pena usare un browser AI sapendo che sarà sempre vulnerabile a manipolazioni? OpenAI continua a lavorare su Atlas, Google e Anthropic stanno sviluppando le loro soluzioni, Perplexity ha Comet. Tutti stanno scommettendo che sì, gli utenti accetteranno il rischio in cambio della comodità.

Forse tra qualche anno le difese saranno abbastanza robuste da rendere il rischio accettabile. Forse l’utilità diventerà così alta da giustificare anche un rischio elevato.

Nel frattempo, se si decide di usare Atlas o qualsiasi altro browser AI, bisogna tenere a mente che da qualche parte, nascosta in una pagina web o in un’email, potrebbe esserci un’istruzione che dice all’assistente AI di fare qualcosa che non si approverebbe mai. E l’AI, brava e obbediente com’è, la seguirà senza fare troppe domande.

Fonte: OpenAI

Tiziana Foglio

Pubblicato il 23 dic 2025