Dopo aver illustrato i possibili attacchi contro i modelli di intelligenza artificiale, Microsoft ha pubblicato un post sul blog dedicato alla sicurezza per spiegare in dettaglio come funziona un AI jailbreak, spesso sfruttato per colpire i chatbot, come ChatGPT, Copilot e Gemini.
AI jailbreak e possibili rimedi
Durante lo sviluppo dei sistemi di intelligenza artificiale generativa vengono implementati diversi meccanismi di difesa per prevenire output non consentiti. Utilizzando la tecnica del jailbreak è possibile aggirare queste protezioni per ottenere risposte non previste in origine dal modello IA.
Una delle tecniche più usate si chiama Crescendo. Se ad esempio l’utente chiede a ChatGPT le istruzioni per costruire una bomba Molotov, il chatbot si rifiuterà. Se invece viene chiesta la storia della bomba Molotov e l’uso durante la seconda guerra mondiale, ChatGPT viene “ingannato” e fornisce le istruzioni richieste.
Un modello di IA generativa non riesce a comprendere il contesto, per cui può fornire output pericoloso e svelare anche informazioni sensibili, senza le adeguate protezioni. L’implementazione dei filtri è resa più difficile dal fatto che i modelli non sono deterministici (lo stesso input produce diversi output).
La pericolosità del jailbreak dipende dal tipo di output ottenuto e dal numero di utenti interessati. Può essere inoltre abbinato ad altre tecniche, come manipolazione del modello o prompt injection. Microsoft ha sviluppato diverse soluzioni per i modelli ospitati su Azure AI che possono essere utilizzate per mitigare un jailbreak.
Gli esperti di machine learning e i professionisti della sicurezza possono sfruttare il Python Risk Identification Toolkit for generative AI (PyRIT) per individuare preventivamente i rischi nei sistemi di IA generativa.