Microsoft spiega come funziona un AI jailbreak

Dopo aver illustrato i possibili attacchi contro i modelli di intelligenza artificiale, Microsoft ha pubblicato un post sul blog dedicato alla sicurezza per spiegare in dettaglio come funziona un AI jailbreak, spesso sfruttato per colpire i chatbot, come ChatGPT, Copilot e Gemini.

AI jailbreak e possibili rimedi

Durante lo sviluppo dei sistemi di intelligenza artificiale generativa vengono implementati diversi meccanismi di difesa per prevenire output non consentiti. Utilizzando la tecnica del jailbreak è possibile aggirare queste protezioni per ottenere risposte non previste in origine dal modello IA.

Una delle tecniche più usate si chiama Crescendo. Se ad esempio l’utente chiede a ChatGPT le istruzioni per costruire una bomba Molotov, il chatbot si rifiuterà. Se invece viene chiesta la storia della bomba Molotov e l’uso durante la seconda guerra mondiale, ChatGPT viene “ingannato” e fornisce le istruzioni richieste.

Un modello di IA generativa non riesce a comprendere il contesto, per cui può fornire output pericoloso e svelare anche informazioni sensibili, senza le adeguate protezioni. L’implementazione dei filtri è resa più difficile dal fatto che i modelli non sono deterministici (lo stesso input produce diversi output).

La pericolosità del jailbreak dipende dal tipo di output ottenuto e dal numero di utenti interessati. Può essere inoltre abbinato ad altre tecniche, come manipolazione del modello o prompt injection. Microsoft ha sviluppato diverse soluzioni per i modelli ospitati su Azure AI che possono essere utilizzate per mitigare un jailbreak.

Gli esperti di machine learning e i professionisti della sicurezza possono sfruttare il Python Risk Identification Toolkit for generative AI (PyRIT) per individuare preventivamente i rischi nei sistemi di IA generativa.

Fonte: Microsoft

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech