Microsoft ha annunciato una nuova funzionalità del servizio Azure OpenAI che permette di rilevare eventuali abusi dei modelli di intelligenza artificiale generativa. Grazie al Risks & safety monitoring, gli sviluppatori dei chatbot possono monitorare i prompt che ingannano il modello e modificare la configurazione dei filtri.

Rilevazione in tempo reale dei jailbreak

Come ha dimostrato il “caso Taylor Swift” è piuttosto facile aggirare le restrizioni dei modelli di IA generativa. Microsoft continua ad aggiornare Copilot per evitare usi illeciti del servizio. La stessa opportunità viene ora offerta agli sviluppatori che usano Azure AI Studio per creare applicazioni basate sui modelli di OpenAI ospitati sui server di Azure.

Lo sviluppatore deve rispettare una serie di requisiti nella creazione delle app IA, tra cui quello che prevede l’implementazione dei filtri per limitare la generazione di contenuti inappropriati. La funzionalità Risks & safety monitoring consente di monitorare l’efficacia dei filtri attraverso alcune utili metriche, come totale e percentuale dei prompt bloccati e richieste bloccate per categoria.

Un’altra funzionalità, denominata Prompt Shields, consente di rilevare e bloccare potenziali abusi del modello, ad esempio tramite jailbreak o attacchi di prompt injection. Microsoft spiega che le nuove difese possono rilevare input sospetti e bloccarli in tempo reale, sottolineando che questi tipo di attacchi è in aumento.