Il modello AI che Anthropic ha dichiarato troppo pericoloso per il rilascio pubblico, quello che ha scovato migliaia di vulnerabilità su Firefox, che ha le capacità di cybersicurezza più forti al mondo, potrebbe essere stato accessibile a un gruppo legato alla Cina. Secondo un report di Semafor, la decisione della Casa Bianca di imporre restrizioni all’esportazione su Mythos è stata motivata in parte dal timore che il modello fosse stato compromesso.
La Cina ha distillato Mythos?
Se il governo cinese ha effettivamente avuto accesso a Mythos 5 o Fable 5, le implicazioni per la sicurezza nazionale sono serie. Il governo potrebbe tentare di replicare il modello tramite distillazione, il metodo con cui un’AI “studente” viene addestrata sugli output di un modello più avanzato per replicarne il comportamento. È lo stesso metodo che avrebbe usato DeepSeek su scala industriale, a detta di Anthropic, e per il quale ha inserito salvaguardie (prima nascoste, poi visibili) su Fable 5.
Le smentite incrociate di Anthropic e della Casa Bianca
La Casa Bianca non ha confermato il report. Un post su X del consigliere di Trump David Sacks non menziona la Cina, si concentra invece sulla presunta possibilità di fare jailbreak di Fable e Mythos, cosa che Anthropic ha negato. Anthropic non ha risposto alla richiesta di commento, ma un portavoce ha detto a Semafor che il governo non ha menzionato la Cina durante le discussioni sui controlli alle esportazioni.
Sta di fatto che nessuno conferma e nessuno smentisce in modo definitivo. Il report resta non verificato, ma non smentito.
Se Mythos è stato accessibile alla Cina, non sarebbe la prima violazione imbarazzante del modello più potente di Anthropic. Un gruppo Discord ha avuto accesso a Mythos per due settimane prima che Anthropic scoprisse la violazione e negasse l’accesso.
Anthropic ha costruito la propria reputazione sulla sicurezza AI, salvaguardie, red teaming, restrizioni all’accesso, Project Glasswing per i clienti fidati. Ha trattenuto Mythos dal rilascio pubblico per mesi tirando in ballo i rischi di cybersicurezza. Ha inserito salvaguardie anti-distillazione su Fable 5. Ha richiesto la conservazione dei dati per 30 giorni per difendersi da attacchi complessi.
Ma se il modello troppo pericoloso per il pubblico è finito nelle mani di un gruppo Discord e potenzialmente di un governo straniero, la domanda è se le protezioni di Anthropic siano davvero all’altezza delle minacce che l’azienda stessa descrive.