Anthropic ha annunciato ieri sera Claude Fable 5, versione sicura di Claude Mythos 5 (aggiornamento del modello annunciato ad aprile). Il termine “sicura” si riferisce alla presenza di varie protezioni che impediscono l’uso illecito del modello, in particolare per effettuare attacchi informatici.
Le protezioni di Claude Fable 5 saranno sufficienti?
Anthropic aveva dichiarato che Claude Mythos sarebbe rimasto accessibile solo tramite Project Glasswing fino all’implementazione delle necessarie protezioni. Come è noto può individuare migliaia di vulnerabilità software in poco tempo e scrivere anche il codice degli exploit. Questa sua capacità potrebbe essere sfruttata dai cybercriminali.
Durante gli ultimi due mesi, Anthropic ha sviluppato e testato le protezioni. L’azienda californiana ha quindi stabilito che sono sufficientemente robuste, per cui gli abbonati possono ora accedere a Claude Fable 5 (gratis fino al 22 giugno). Quando l’utente inserirà prompt sugli argomenti vietati, la risposta verrà fornita da Claude Opus 4.8. Claude Mythos 5 (aggiornamento della versione originaria) ha meno restrizioni e sarà ancora disponibile tramite Project Glasswing.
Le protezioni sono state implementate mediante classificatori che coprono tre aree: cybersicurezza, biologia e chimica, distillazione. L’obiettivo di Anthropic è bloccare ad esempio richieste sulla scrittura di malware o la creazione di armi biologiche. Le protezioni sono volutamente conservative, quindi potrebbero esserci falsi positivi.
Claude Fable 5 non può essere utilizzato per ricevere assistenza durante gli attacchi informatici (ad esempio per trovare le vulnerabilità e scrivere il codice degli exploit) o per ottenere informazioni sullo sviluppo di virus. I classificatori resistono inoltre ai jailbreak, ovvero ai tentativi di aggirare le protezioni. Nelle prossime settimane scopriremo se funzionano come previsto.
Anthropic ha infine implementato protezioni contro la distillazione, la tecnica che permette di addestrare un modello più piccolo con l’output di un modello più grande. Claude Fable 5 non può essere utilizzato per sviluppare modelli con simili capacità.
In tutti i casi elencati, le richieste verranno bloccate e l’utente riceverà le risposte da Claude Opus 4.8. Lo switch automatico del modello è attivo in Claude, Claude Cowork, Claude Code, Claude Design e Claude for Microsoft 365. Ovviamente anche Claude Opus 4.8 potrebbe bloccare i prompt, quindi sarà necessario cambiare le richieste.