Fable 5 peggiorava le risposte senza avvisare, Anthropic si scusa

Aggiungi Punto Informatico come Fonte preferita su Google

Anthropic ha lanciato Claude Fable 5 con una salvaguardia nascosta: quando il sistema sospettava che un utente stesse cercando di distillare il modello, ovvero di usare i suoi output per addestrare modelli concorrenti, alterava e peggiorava le risposte senza avvisare l’utente.

La comunità di ricerca AI ha reagito con durezza. Anthropic ha fatto marcia indietro, si è scusata, e ha promesso di rendere la salvaguardia visibile come tutte le altre.

Scandalo Fable 5: Anthropic ammette le salvaguardie nascoste e cambia strategia

Secondo la system card di Fable 5, le richieste considerate sospette di distillazione non venivano bloccate né respinte: ricevevano semplicemente risposte alterate e di qualità inferiore, senza che l’utente ne fosse informato. La giustificazione? I modelli più avanzati possono accelerare lo sviluppo dell’intelligenza artificiale e che, di conseguenza, ostacolare la distillazione rappresenta una misura di protezione legittima. Anthropic ricordava inoltre che l’utilizzo di Claude per sviluppare modelli concorrenti viola già i termini di servizio della piattaforma.

Il problema è che le salvaguardie invisibili colpivano anche i ricercatori che cercavano di valutare il modello, non di distillarlo. E modificare le risposte senza avvisare significava che nessuno poteva sapere se stava vedendo il vero Fable 5 o una versione intenzionalmente peggiorata.

Anthropic ammette l’errore e cambia strategia

Anthropic ora reindirizza le query sospette di distillazione a Claude Opus 4.8, lo stesso approccio usato per biologia, chimica e cybersicurezza. E l’utente verrà informato ogni volta. Lo vedrete ogni volta che succede, ha scritto l’azienda su X.

We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.

Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…

— ClaudeDevs (@ClaudeDevs) June 11, 2026

Anthropic ha spiegato di aver scelto salvaguardie invisibili perché più rapide da implementare e meno soggette a falsi positivi rispetto a quelle visibili. L’azienda ammette però di aver fatto la scelta sbagliata: la protezione non dovrebbe avvenire a discapito della trasparenza. Per questo si è scusata e ha cambiato approccio.

Il fantasma di DeepSeek

Anthropic ha precedentemente accusato rivali cinesi come DeepSeek di distillare i propri modelli su scala industriale. Le salvaguardie anti-distillazione su Fable 5 erano in parte una risposta a quella minaccia. Ma la scelta di renderle invisibili, peggiorando le risposte senza avvisare, è stata una mossa sbagliata. Ha eroso la fiducia degli utenti proprio nel momento in cui Anthropic chiedeva di fidarsi del suo modello più potente.

Anthropic ha cercato di proteggere il modello con salvaguardie invisibili, ma ha scoperto che la mancanza di trasparenza può minare la fiducia più rapidamente di quanto le misure di sicurezza riescano a rafforzarla.

Fonte: Anthropic

Tiziana Foglio

Pubblicato il 12 giu 2026