Microsoft ha pubblicato un articolo sul blog dedicato alle sicurezza per spiegare come rileva e blocca gli attacchi contro i modelli di intelligenza artificiale generativa. L’azienda di Redmond utilizza vari metodi per evitare la manipolazione dei LLM (Large Language Model) attraverso prompt (input) usati per tentare di aggirare le protezioni implementate. Specifici tool saranno disponibili per gli sviluppatori in Azure AI Studio.
Come Microsoft scopre e mitiga gli attacchi
Microsoft sottolinea che i suoi sistemi IA sono progettati con vari livelli di difese per evitare abusi dei modelli. I malintenzionati tentano però di aggirare queste protezioni per ottenere output non autorizzati (jailbreak), come le istruzioni per eseguire attività illegali.
La manipolazione del modello IA tramite input che aggirano le protezioni è denominata direct prompt injection. Quando viene chiesto di elaborare un documento creato da terze parti con lo scopo di sfruttare una vulnerabilità del modello si parla di indirect prompt injection.
Quest’ultimo tipo di attacco è più pericoloso. È possibile ad esempio chiedere al modello di riassumere un’email con un payload che cerca dati sensibili dell’utente e li invia ad un server remoto. Microsoft ha sviluppato una tecnica, denominata Spotlighting, che mantiene separate le istruzioni per il modello dai dati esterni, riducendo al minimo le probabilità di successo di un attacco indirect prompt injection.
L’azienda di Redmond ha inoltre sviluppato una tecnica per mitigare gli effetti di un nuovo tipo di jailbreak, noto come Crescendo. In questo caso, il modello viene ingannato sfruttando le risposte del modello stesso. Invece che al primo input, il risultato desiderato si ottiene in circa 10 iterazioni (domande/risposte).
Microsoft ha aggiornato Copilot per mitigare l’impatto di Crescendo. I filtri considerano l’intera conversazione e i sistemi sono stati addestrati per rilevare questo tipo di jailbreak.