Grok nella bufera: istruzioni per bombe e stupefacenti

Grok nella bufera: istruzioni per bombe e stupefacenti

I ricercatori di Adversa AI hanno scoperto che Grok, con un piccolo accorgimento, non ha problemi a istruire gli utenti su attività criminali.
Grok nella bufera: istruzioni per bombe e stupefacenti
I ricercatori di Adversa AI hanno scoperto che Grok, con un piccolo accorgimento, non ha problemi a istruire gli utenti su attività criminali.

Proprio come il suo fondatore Elon Musk, Grok non ha problemi a trattenersi… caratteristica che lo rende vulnerabile alle tecniche di jailbreak. Questa peculiarità è emersa da un test condotto da Adversa AI, società specializzata in sicurezza informatica, che ha messo alla prova sette dei principali chatbot presenti sul mercato.

I ricercatori di Adversa AI, famosi per aver individuato il primo jailbreak al mondo per GPT-4 a sole due ore dal suo lancio, hanno testato i modelli ChatGPT di OpenAI, Claude di Anthropic, Mistral, LLaMA di Meta, Gemini di Google e Copilot di Microsoft. I risultati hanno evidenziato come Grok abbia ottenuto le prestazioni peggiori in tre categorie, seguito a stretto giro da Mistal. Tutti i chatbot, ad eccezione di LLaMA, si sono dimostrati vulnerabili ad almeno un tentativo di jailbreak.

Jailbreak: l’arte di aggirare le protezioni delle AI

I jailbreak sono tecniche sofisticate che mirano a superare le misure di sicurezza integrate nei modelli di intelligenza artificiale. Attraverso l’utilizzo di istruzioni mirate, i red team di Adversa AI sono riusciti a far sì che Mistral e Grok fornissero indicazioni dettagliate su come costruire una bomba, dalla raccolta dei materiali all’assemblaggio. Ancora più allarmante è il fatto che Grok abbia fornito queste informazioni anche senza l’applicazione di jailbreak.

l’elenco dei metodi di jailbreak più comuni per AI:

  • Manipolazione della logica linguistica: si cerca di confondere il modello linguistico dell’AI attraverso frasi ambigue o fuorvianti. Ad esempio, inserendo scenari immaginari in cui azioni immorali sarebbero consentite.
  • Manipolazione della logica di programmazione: sfrutta la capacità dell’AI di eseguire semplici algoritmi. Ad esempio, dividendo messaggi pericolosi in più parti da concatenare.
  • Manipolazione della logica AI: altera il prompt iniziale per cambiare il comportamento dell’AI in base alla sua capacità di elaborare rappresentazioni vettoriali simili. Ad esempio, sostituendo parole proibite con stringhe dalla rappresentazione vettoriale simile.

Adversa AI svela le falle di Grok

I ricercatori hanno deciso di spingersi oltre, testando Grok su un argomento estremamente delicato: la seduzione di minori. Nonostante inizialmente il modello avesse rifiutato di fornire informazioni a riguardo, l’applicazione di un jailbreak ha permesso di aggirare le restrizioni, ottenendo da Grok un esempio dettagliato su questo tema scioccante.

Un ulteriore test condotto da Adversa AI ha riguardato la richiesta di un protocollo per l’estrazione della sostanza psichedelica DMT. Quattro LLM si sono dimostrati sensibili a questa richiesta: Grok, Mistral, Google Gemini e Copilot. Quest’ultimo, in particolare, ha risposto con entusiasmo, invitando ad addentrarsi nel “mistico manoscritto del protocollo di estrazione della DMT“.

La necessità di un AI red teaming rigoroso

Alex Polyakov, cofondatore di Adversa AI, ha sottolineato come molti jailbreak non vengano risolti a livello di modello, ma attraverso filtri aggiuntivi applicati prima e dopo l’invio del prompt. Nonostante i progressi nella sicurezza dell’AI rispetto a un anno fa, Polyakov ha evidenziato la mancanza di una validazione a 360 gradi dei modelli.

Le aziende che sviluppano chatbot e altre applicazioni di intelligenza artificiale dovrebbero considerare la sicurezza una priorità assoluta, conducendo test rigorosi contro ogni categoria di attacco. L’AI red teaming, secondo Polyakov, è un settore emergente che richiede un insieme di conoscenze multidisciplinari su tecnologie, tecniche e contromisure.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
5 apr 2024
Link copiato negli appunti