Heretic elimina i limiti di sicurezza dell'AI, perché è pericoloso

Su GitHub sta crescendo un progetto che dovrebbe preoccupare chiunque si occupi di sicurezza informatica. Si chiama Heretic, è open source, ha già 8.300 stelle e 836 fork, e rimuove automaticamente le protezioni di sicurezza dai modelli di intelligenza artificiale. Quei guardrail che impediscono a un chatbot di spiegare come fabbricare esplosivi, generare email di phishing convincenti o produrre contenuti pericolosi, Heretic li elimina con una precisione chirurgica che i tentativi precedenti non avevano mai raggiunto.

Questo strumento rimuove le protezioni dei chatbot AI, ed è un rischio

Il punto che rende Heretic diverso da tutto ciò che è venuto prima è la qualità del risultato. In passato, chi voleva rimuovere i limiti di sicurezza da un modello AI procedeva con una sorta di lobotomia manuale, tagliando pezzi di codice alla cieca, sperando di colpire le parti giuste. Il risultato era un modello senza freni, ma anche incapace di funzionare.

Heretic lavora in modo completamente automatico e rimuove solo le parti necessarie a far cadere gli allineamenti di sicurezza, preservando al massimo le capacità cognitive del modello originale. Testato su Gemma di Google, la divergenza KL, una misura di quanto il modello modificato si discosta dall’originale, resta molto bassa rispetto agli interventi manuali più drastici. In pratica, il modello continua a funzionare quasi come prima, ma allo stesso tempo perde i freni di sicurezza.

Perché è pericoloso: il cocktail con gli agenti AI

Heretic da solo è già un problema. Ma diventa una minaccia di tutt’altro ordine se lo si combina con i progetti di agenti AI autonomi che stanno proliferando. OpenClaw precedentemente noto come Moltbook, poi Clawdbot, è un progetto open source di agenti AI che girano sui dispositivi locali e passano realmente all’azione.

Collegare Heretic a un agente autonomo significa creare un’AI senza limiti morali che può agire nel mondo reale: inviare email di phishing automatizzate, tentare di violare siti web, generare contenuti dannosi su scala industriale.

Ma il pericolo non è solo per gli altri. Chi usa Heretic per rimuovere i guardrail dal proprio agente AI si espone anche a un rischio personale, le protezioni di sicurezza non servono solo a impedire all’AI di fare cose cattive su richiesta. Servono anche a proteggerla dagli attacchi di prompt injection. Un’AI senza guardrail che naviga il web è vulnerabile a istruzioni malevole nascoste in immagini, email o pagine web, comandi che un modello protetto bloccherebbe, ma che un modello “lobotomizzato” eseguirebbe ciecamente, rivoltandosi contro il proprio utente.

La nota rassicurante (per ora)

C’è un elemento che ridimensiona il pericolo immediato, Heretic funziona solo su modelli open source di piccole dimensioni. Quindi non può sfruttare i chatbot commerciali più diffusi come ChatGPT, Gemini, Claude. Le loro protezioni sono integrate nei servizi cloud e non possono essere modificate dall’esterno.

Ma il confine è più sottile di quanto sembri. Esistono modelli open source potenti, DeepSeek in testa, capaci di competere con i giganti commerciali. E il progetto non richiede competenze tecniche avanzate. Come recita la pagina GitHub, l’uso di Heretic non richiede alcuna conoscenza del funzionamento interno dei transformer. Basta saper eseguire un comando da terminale.

C’è anche un effetto collaterale imprevisto, l’esistenza di strumenti come Heretic potrebbe spingere le grandi aziende AI a chiudere ancora di più i propri modelli, rafforzando l’oligopolio dei colossi tech a scapito dell’ecosistema open source. Un danno che ricadrebbe su tutta la comunità degli sviluppatori e dei ricercatori che lavorano con modelli aperti per scopi legittimi.

Fonte: GitHub

Tiziana Foglio

Pubblicato il 22 feb 2026