Tre ricercatori della Tel Aviv University hanno descritto 14 tipi di attacchi promptware effettuati contro Gemini, suddivisi in quattro categorie o classi. Si tratta di particolari attacchi “indirect prompt injection” che sfruttano la capacità di un modello AI per eseguire azioni pericolose, anche nel mondo reale come il controllo della smart home.
Google ha già migliorato le protezioni
Il termine promptware indica input (testo, immagine o audio) che simulano il funzionamento di un malware per manipolare il comportamento di un modello AI durante l’inferenza (quando viene usato un chatbot). I ricercatori dell’università di Tel Aviv hanno descritto 14 attacchi “targeted promptware” contro Gemini che sfruttano un indirect prompt injection attraverso l’interazione con Gmail, Google Calendar e Google Docs.
Un attacco promptware inizia con l’invio di un’email, un invito o un documento all’ignara vittima. Quando l’utente chiede a Gemini di accedere alle risorse condivise (Gmail, Google Calendar e Google Docs), il chatbot esegue le azioni volute dal cybercriminale. È possibile ad esempio generare contenuto pericoloso, come il consiglio di investire in presunto progetto, oppure generare spam e phishing.
Un altro tipo di attacco promptware prevede la cancellazione degli eventi in calendario, quando l’utente chiede a Gemini di leggere gli eventi futuri. Sfruttando altri software, tra cui il browser e Zoom, un cybercriminale potrebbe copiare un file sullo smartphone, individuare la posizione dell’utente, avviare lo streaming tramite Zoom o esfiltrare gli oggetti delle email.
Tutti i suddetti attacchi avvengono nel mondo digitale. È tuttavia possibile eseguire azioni nel mondo reale, quando Gemini viene usato per controllare i dispositivi presenti nella smart home. Se l’utente ha collegato Google Home, un cybercriminale potrebbe aprire le tapparelle, accendere/spegnere le luci e attivare il riscaldamento.
I ricercatori hanno inviato i risultati a Google il 22 febbraio 2025. L’azienda di Mountain View ha quindi implementato diverse mitigazioni per questo tipo di attacchi. I dettagli relativi alle misure adottate sono stati pubblicati il 13 giugno sul blog riservato alla sicurezza.