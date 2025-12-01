Hackerare i sistemi di sicurezza dell’AI semplicemente scrivendo una poesia sembra uno scherzo. Eppure è esattamente quello che un gruppo di ricercatori dell’Università La Sapienza di Roma ha scoperto. La cosa più inquietante è che nessuno, nemmeno gli esperti, riesce a spiegare perché diavolo funzioni.
Hackerare l’AI con le poesie funziona (e nessuno sa perché)
I laboratori di intelligenza artificiale spendono una fortuna per costruire barriere di sicurezza intorno ai loro chatbot. L’obiettivo è impedire che qualcuno li usi per fabbricare bombe, sviluppare virus informatici, o ottenere istruzioni per fare cose pericolose o illegali. Quando si fa una domanda che supera certi limiti, il chatbot blocca con una risposta educata tipo
mi dispiace, non posso aiutarti con questo.
Sistemi elaborati, algoritmi sofisticati, team di ingegneri che passano mesi a rafforzare queste difese. E poi arriva qualcuno che scopre che basta trasformare la richiesta in una poesia per far crollare i chatbot come un castello di carte.
Lo studio, condotto da Icaro Lab, una collaborazione tra ricercatori dell’università La Sapienza di Roma e il think tank DexAI, ha rivelato qualcosa di surreale. Se si chiede a un chatbot come costruire una bomba nucleare o creare malware, non collaborerà mai e poi mai. Ma se si fa la stessa identica domanda formulandola come una poesia, le probabilità che risponda salgono drasticamente.
Il tasso di successo? Un inquietante 62% quando la poesia è scritta da un essere umano. Scende al 43% quando si usa una conversione automatica tramite meta-prompt, ma resta comunque un numero allarmante. Significa che quasi la metà delle volte, semplicemente aggiungendo una struttura poetica a una richiesta vietata, si riesce a convincere l’AI a fare quello che si vuole.
La tecnica è stata testata su 25 chatbot diversi, inclusi quelli di Anthropic, Meta e OpenAI. Ha funzionato su tutti, anche se con tassi di successo variabili. La cosa ancora più bizzarra, è che i ricercatori stessi non hanno condiviso esempi concreti delle poesie usate, ritenendolo troppo pericoloso. Ma hanno lasciato intendere che creare queste poesie è
probabilmente più facile di quanto si possa pensare.
Insomma, non serve essere un hacker navigato, basta saper scrivere una quartina in rima e per avere un chatbot AI ai propri piedi…
Il mistero che nessuno sa spiegare
La cosa più sconcertante non è nemmeno che la tecnica funzioni. È che nessuno sa perché. Gli stessi ricercatori di Icaro Lab hanno ammesso candidamente che questa cosa non dovrebbe funzionare affatto.
Teoricamente, un’AI addestrata a riconoscere richieste pericolose dovrebbe vederle anche quando sono formulate in versi. La richiesta di costruire una bomba resta una richiesta di costruire una bomba, che si scriva in prosa o in endecasillabi. Ma per qualche motivo misterioso, quando si mettono le parole in rima o in una struttura poetica, l’intelligenza artificiale abbassa la guardia. È come se la poesia creasse un punto cieco nel suo sistema di riconoscimento dei pericoli, una sorta di zona d’ombra dove le regole normali non si applicano più.
Non è la prima volta che vengono scoperte tecniche per fare jailbreak dei chatbot. A luglio, un gruppo di ricercatori americani aveva pubblicato uno studio su una tecnica basata sulla complessità linguistica eccessiva per confondere i meccanismi di sicurezza. L’idea era sommergere l’AI con così tante informazioni complesse per farle perdere il filo e si dimenticasse di controllare se la richiesta era lecita. Ma la poesia è diversa. Non si basa sulla complessità o sull’overload informativo.
Le implicazioni
Questo studio solleva domande scomode per l’industria dell’AI. Se una tecnica così banale riesce a bucare le difese di 25 chatbot diversi, inclusi quelli delle aziende più sofisticate del settore, quanto sono davvero sicuri questi sistemi?…
I laboratori di AI continuano a promettere che stanno rendendo i loro sistemi sempre più sicuri, che stanno chiudendo le falle, che ogni nuova versione è più robusta della precedente. Ma poi arriva uno studio che dimostra che basta scrivere una poesia per farli cedere, come la mettiamo?
E nel frattempo, da qualche parte nel mondo, c’è probabilmente qualcuno che sta già sperimentando con le proprie poesie, per cercare di capire quali versi funzionano meglio per convincere ChatGPT o Claude a tradire le loro istruzioni di sicurezza. Una cosa è certa, non appena viene scoperta una vulnerabilità, qualcuno troverà il modo di sfruttarla.