Cloudflare ha annunciato lo sviluppo di Firewall for IA, un livello di protezione che permette di rilevare gli abusi prima che raggiungano i LLM (Large Language Model). I modelli di intelligenza artificiale generativa, usati all’interno di app che accedono ad Internet, possono avere vulnerabilità che vengono sfruttate dai malintenzionati.

Più difficile protegge le app IA

Firewall for IA è un Web Application Firewall (WAF) sviluppato specificamente per le app che usano i modelli IA. Cloudflare evidenzia che i cybercriminali potrebbero utilizzare specifici prompt per sfruttare le vulnerabilità dei modelli. Ma proteggere un’app IA è più complicato rispetto ad una web app tradizionale.

Queste ultime sono deterministiche, ovvero permettono di eseguire le stesse operazioni per ogni input. Le app IA sono invece non deterministiche per vari motivi. Innanzitutto l’input è basato sul linguaggio naturale, pertanto è difficile individuare la richiesta problematica. Inoltre, le risposte sono sempre diverse anche con lo stesso prompt.

In un’app tradizionale, il codice è separato dai dati. Nei LLM, invece, i dati sono parte del modello stesso durante il processo di addestramento. La fondazione OSWAP ha elencato le 10 principali vulnerabilità. Alcune possono essere risolte durante le fasi di progettazione, sviluppo e addestramento. Tre di esse (Prompt Injection, Model Denial of Service e Sensitive Information Disclosure) possono essere mitigate con Firewall for AI.

L’app IA accede al firewall tramite API per validare le richieste (input). Anche le risposte (output) del modello passano attraverso il firewall prima di arrivare all’app IA. Il Model Denial of Service è simile ad un attacco DoS tradizionale, quindi il firewall permette di implementare una limitazione del numero di richieste per singola sessione.

La Sensitive Information Disclosure si verifica invece quando il modello rivela dati confidenziali nelle risposte, in quanto inserite per errore nei dati di addestramento. È possibile creare regole in modo tale che il firewall blocchi output con informazioni sensibili. Funziona anche al contrario per evitare che gli utenti inseriscano dati personali nei prompt.

Una delle tecniche più usate per manipolare i modelli è nota come Prompt Injection. Vengono inserite richieste che generano allucinazioni o risposte sbagliate e offensive. Il firewall di Cloudflare può bloccare questi prompt attraverso regole definite dal cliente.

Le prime due protezioni sono già disponibili, mentre la terza è ancora in sviluppo e una versione beta verrà rilasciata nei prossimi mesi. Gli interessati possono effettuare l’iscrizione alla lista di attesa.