Anthropic ha impiegato appena quarantuno giorni per aggiornare il suo modello di punta da Opus 4.7 a Opus 4.8: un record assoluto nei tempi di rilascio dell’azienda. La fretta potrebbe avere a che fare con l’accoglienza tiepida di Opus 4.7, che alcuni utenti avevano trovato deludente, e con la pressione competitiva. OpenAI ha aggiornato Codex, Google ha rilasciato il nuovo Gemini Flash, e Anthropic non poteva restare a guardare.
Cosa migliora con Claude Opus 4.8
I benchmark sono i migliori della categoria, come ci si aspetta da un nuovo Opus. Ma il miglioramento più significativo è nel modo in cui il sistema affronta le informazioni ambigue o incomplete. Anthropic sostiene che Opus 4.8 sia più incline a dichiarare i propri dubbi e meno propenso a presentare come certe informazioni non verificate.
Bridgewater Associates, il più grande hedge fund del pianeta, ha confermato la stessa impressione: Il cambiamento più evidente è la propensione di Opus 4.8 a identificare autonomamente criticità nei dati in ingresso e nei risultati dell’analisi, un comportamento che altri modelli tendono sistematicamente a ignorare, lasciando agli utenti il compito di individuarli.
Le allucinazioni dell’intelligenza artificiale hanno già prodotto conseguenze reali, come database compromessi, diagnosi sbagliate. In questo scenario, un modello che preferisce ammettere l’incertezza anziché inventare una risposta di sana pianta è un miglioramento sostanziale.
Dynamic Workflows: per gestire centinaia di sotto-agenti
Insieme al modello, Anthropic lancia Dynamic Workflows in anteprima di ricerca. Il sistema è progettato per gestire compiti complessi attraverso centinaia di sotto-agenti paralleli.
Anthropic sostiene che Claude Code, insieme a Opus 4.8, sia capace di affrontare modifiche estese su codebase molto grandi, anche da centinaia di migliaia di linee di codice, portando avanti l’intero processo in autonomia: pianificazione, aggiornamento del codice, validazione tramite test e integrazione finale.
In arrivo Mythos
Anthropic non rilascia ancora Mythos, il modello più avanzato che ha scoperto migliaia di vulnerabilità su Firefox e che ha trovato bug dormenti da 15 anni. L’anteprima del mese scorso aveva sollevato preoccupazioni di cybersicurezza.
Nel post, Anthropic ha lasciato intendere in modo piuttosto chiaro che il roll out potrebbe essere ormai imminente, sottolineando i rapidi progressi nello sviluppo delle salvaguardie necessarie per renderli disponibili a tutti i clienti nelle prossime settimane. Insomma, è questione di poco, non di mesi.