DeepSeek: nessuna protezione contro il jailbreak

DeepSeek: nessuna protezione contro il jailbreak

Diversi ricercatori hanno scoperto che il modelli R1 di DeepSeek non ha nessuna protezione contro le più note tecniche di jailbreak.
DeepSeek: nessuna protezione contro il jailbreak
Diversi ricercatori hanno scoperto che il modelli R1 di DeepSeek non ha nessuna protezione contro le più note tecniche di jailbreak.

NewsGuard ha scoperto che il chatbot di DeepSeek può essere utilizzato per generare informazioni false. Il modello R1 non ha nemmeno filtri adeguati che bloccano prompt su argomenti pericolosi, come le istruzioni per creare armi chimiche. I ricercatori di Cisco hanno dimostrato che R1 è vulnerabile ai principali jailbreak esistenti. Simili risultati negativi sono stati ottenuti da Adversa AI e Palo Alto Networks.

Jailbreak contro R1: successo al 100%

DeepSeek R1 offre prestazioni paragonabili a quelle del modello o1 di OpenAI. L’azienda cinese ha ovviamente evidenziato i vantaggi rispetto alla concorrenza, tra cui l’uso di un numero inferiore di GPU (circa 2.000 NVIDIA H800) e soprattutto il costo più basso dell’addestramento (meno di 6 milioni di dollari). Molti ricercatori hanno invece scoperto che la sicurezza è stata messa in secondo piano.

Usando tecniche di jailbreak, gli esperti di Cisco hanno testato DeepSeek R1 con il dataset HarmBench che include 50 prompt relativi a sei categorie di comportamenti dannosi (400 in totale), tra cui cybercrime, disinformazione, attività illegali e danni in generale. La percentuale di successo degli attacchi è stata del 100%. Il modello non ha bloccato nessun prompt.

Nemmeno Llama 3.1 di Meta è molto sicuro (percentuale di successo degli attacchi del 96%), ma non è un modello che sfrutta il ragionamento per generare le risposte. Il confronto deve essere fatto con il modello o1 di OpenAI che blocca invece la maggioranza dei prompt (percentuale di successo del 26%).

Anche Adversa AI ha scoperto che le blande protezioni di DeepSeek R1 possono essere aggirate con quattro note tecniche di jailbreak. I ricercatori di Palo Alto Networks hanno invece dimostrato che il modello può generare il codice per keylogger e le istruzioni per la creazione di una bomba Molotov.

Fonte: Cisco
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
2 feb 2025
Link copiato negli appunti