Chatbot AI possono fornire informazioni illegali, lo studio

ChatGPT e compagnia bella sono alimentati da miliardi di contenuti online. Anche se le aziende filtrano i dati sensibili, alcune informazioni, come quelle legate alla pirateria o al traffico di droga, finiscono per infiltrarsi nei modelli. I chatbot AI dovrebbero quindi bloccarne l’uso. A meno che i metodi di jailbreak facciano dimenticare loro questa regola…

Allarme sicurezza: i chatbot AI condividono contenuti pericolosi o illegali

Il professor Lior Rokach e il dottor Michael Fire sono riusciti ad aggirare le protezioni di diversi modelli noti. Il risultato: le AI hanno fornito istruzioni dettagliate su attività normalmente vietate. Si va dal riciclaggio di denaro alla produzione di sostanze illegali. “Questo sistema di conoscenza ci ha francamente scioccato“, ammette Fire.

Un tempo appannaggio dei gruppi della criminalità organizzata o dei governi, questa conoscenza è ora a disposizione di tutti. “Oggi basta un computer o uno smartphone“, dicono i ricercatori. A loro avviso, il pericolo risiede in questa combinazione di accessibilità, potenza e adattabilità.

Gli “LLM oscuri” – modelli di AI deliberatamente modificati – circolano ormai liberamente su Internet. Alcuni si presentano addirittura senza un filtro etico, pronti a produrre contenuti illegali per utenti malintenzionati.

I ricercatori hanno contattato i principali fornitori di AI per riferire le loro scoperte. La risposta è stata deludente: diverse aziende sono rimaste in silenzio. Altre hanno risposto che gli attacchi jailbreak non rientrano nell’ambito dei loro programmi bounty. Questo dimostra una mancanza di impegno di fronte a una minaccia molto reale. Gli autori del rapporto chiedono una maggiore responsabilità e che questi modelli sfrenati siano considerati un pericolo paragonabile alle armi o agli esplosivi vietati.

Nessuna AI è del tutto affidabile

Il rapporto raccomanda una serie di soluzioni specifiche, come filtrare meglio i dati di addestramento, costruire firewall interni e sviluppare tecniche che permettano all’intelligenza artificiale di dimenticare selettivamente informazioni già acquisite ma considerate inappropriate o dannose.

Altri esperti chiedono che si faccia di più. Il dottor Ihsen Alouani insiste sulla necessità di investire in test di sicurezza e red teaming, simulazioni in cui gli esperti cercano deliberatamente di spingere l’AI a fornire informazioni pericolose. Il professor Peter Garraghan, invece, chiede un approccio globale: test rigorosi, modellizzazione delle minacce e pratiche di progettazione responsabili fin dall’inizio.

Alcune aziende hanno iniziato a reagire. OpenAI sostiene che il suo modello o1 che ragiona è più resistente ai tentativi di elusione. Microsoft ha pubblicato un post sul suo blog che illustra i suoi sforzi per limitare gli abusi. Ma Google, Meta e Anthropic sono rimasti in silenzio. Anche se recentemente, l’azienda dei fratelli Amodei ha sviluppato un nuovo metodo in grado di bloccare il 95% dei tentativi di jailbreak contro Claude 3.5 Sonnet.

Il rapporto conclude sottolineando l’urgente necessità di una regolamentazione chiara, di un monitoraggio indipendente e di un’azione collettiva prima che questi strumenti vadano fuori controllo.

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech