Fable 5 peggiorava le risposte senza avvisare, Anthropic si scusa

Fable 5 peggiorava le risposte senza avvisare, Anthropic si scusa

Le salvaguardie anti-distillazione di Fable 5 modificavano le risposte in modo invisibile. Anthropic annuncia che gli utenti saranno avvisati.
Fable 5 peggiorava le risposte senza avvisare, Anthropic si scusa
Le salvaguardie anti-distillazione di Fable 5 modificavano le risposte in modo invisibile. Anthropic annuncia che gli utenti saranno avvisati.

Anthropic ha lanciato Claude Fable 5 con una salvaguardia nascosta: quando il sistema sospettava che un utente stesse cercando di distillare il modello, ovvero di usare i suoi output per addestrare modelli concorrenti, alterava e peggiorava le risposte senza avvisare l’utente.

La comunità di ricerca AI ha reagito con durezza. Anthropic ha fatto marcia indietro, si è scusata, e ha promesso di rendere la salvaguardia visibile come tutte le altre.

Scandalo Fable 5: Anthropic ammette le salvaguardie nascoste e cambia strategia

Secondo la system card di Fable 5, le richieste considerate sospette di distillazione non venivano bloccate né respinte: ricevevano semplicemente risposte alterate e di qualità inferiore, senza che l’utente ne fosse informato. La giustificazione? I modelli più avanzati possono accelerare lo sviluppo dell’intelligenza artificiale e che, di conseguenza, ostacolare la distillazione rappresenta una misura di protezione legittima. Anthropic ricordava inoltre che l’utilizzo di Claude per sviluppare modelli concorrenti viola già i termini di servizio della piattaforma.

Il problema è che le salvaguardie invisibili colpivano anche i ricercatori che cercavano di valutare il modello, non di distillarlo. E modificare le risposte senza avvisare significava che nessuno poteva sapere se stava vedendo il vero Fable 5 o una versione intenzionalmente peggiorata.

Anthropic ammette l’errore e cambia strategia

Anthropic ora reindirizza le query sospette di distillazione a Claude Opus 4.8, lo stesso approccio usato per biologia, chimica e cybersicurezza. E l’utente verrà informato ogni volta. Lo vedrete ogni volta che succede, ha scritto l’azienda su X.

Anthropic ha spiegato di aver scelto salvaguardie invisibili perché più rapide da implementare e meno soggette a falsi positivi rispetto a quelle visibili. L’azienda ammette però di aver fatto la scelta sbagliata: la protezione non dovrebbe avvenire a discapito della trasparenza. Per questo si è scusata e ha cambiato approccio.

Il fantasma di DeepSeek

Anthropic ha precedentemente accusato rivali cinesi come DeepSeek di distillare i propri modelli su scala industriale. Le salvaguardie anti-distillazione su Fable 5 erano in parte una risposta a quella minaccia. Ma la scelta di renderle invisibili, peggiorando le risposte senza avvisare, è stata una mossa sbagliata. Ha eroso la fiducia degli utenti proprio nel momento in cui Anthropic chiedeva di fidarsi del suo modello più potente.

Anthropic ha cercato di proteggere il modello con salvaguardie invisibili, ma ha scoperto che la mancanza di trasparenza può minare la fiducia più rapidamente di quanto le misure di sicurezza riescano a rafforzarla.

Fonte: Anthropic
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
12 giu 2026
Link copiato negli appunti