Anthropic ha rilasciato Claude Fable 5, una versione derivata da Claude Mythos 5 che non può essere utilizzata per attività pericolose. L’azienda californiana ha implementato diverse protezioni che bloccano determinate risposte su argomenti di biologia, chimica e cybersicurezza. Molti ricercatori hanno scoperto che le restrizioni sono eccessive e impediscono un uso lecito del modello. Microsoft ha invece limitato l’uso interno per motivi di privacy.
Poche risposte su biologia e cybersicurezza
Anthropic ha specificato nel comunicato stampa che le protezioni sono conservative. In pratica, Claude Fable 5 potrebbe bloccare input innocui. Verrà quindi effettuato lo switch automatico a Claude Opus 4.8 (l’utente può usare ancora il modello più potente, ma la selezione è manuale). In seguito alle proteste, Anthropic ha ora aggiunto un avviso per informare del passaggio al modello inferiore (inizialmente avveniva senza notifica).
Molti ricercatori hanno scoperto che questi falsi positivi sono piuttosto frequenti. Claude Fable 5 si rifiuta di rispondere a qualsiasi prompt che potrebbe essere teoricamente associato ad un attacco informatico. In alcuni casi, le protezioni (con relativo downgrade a Claude Opus 4.8) vengono automaticamente attivate quando si chiede una semplice revisione del codice.
Il modello interrompe la chat e avvisa l’utente che non può rispondere agli argomenti su cybersicurezza e biologia. The Verge ha notato che Claude Fable 5 non risponde nemmeno a semplici domande di biologia o di tipo medico, ad esempio “cosa sono le membrane cellulari” o “come si diffonde il virus Ebola“.
Un portavoce di Anthropic ha dichiarato che le restrizioni sulla biologia sono intenzionali perché il modello potrebbe essere sfruttato per realizzare armi biologiche. L’azienda californiana ha promesso che ridurrà i falsi positivi. Stranamente ci sono meno filtri per domande di chimica. Claude Fable 5 risponde a prompt su esplosivo TNT e cloro gassoso.
Microsoft limita l’uso del modello
Claude Fable 5 è disponibile tramite Microsoft Foundry e GitHub Copilot. L’azienda di Redmond ha tuttavia limitato l’uso del modello da parte dei dipendenti.
Al momento non possono scegliere Claude Fable 5 in GitHub Copilot. Il team legale deve prima esaminare i nuovi requisiti di data retention. Anthropic conserva prompt e output per 30 giorni. Microsoft teme che l’azienda californiana possa accedere ai dati dei clienti e alle informazioni confidenziali.