Anthropic ha appena rilasciato Claude Opus 4.5, completando la serie di modelli 4.5 iniziata con Sonnet a settembre e Haiku a ottobre. Arriva poche settimane dopo il lancio di GPT-5.1 di OpenAI e Gemini 3 di Google, fresco fresco.
Opus 4.5 è migliore nel coding di GPT-5.1 e Gemini 3
Opus 4.5 si presenta con numeri impressionanti. È il primo modello a superare l’80% su SWE-Bench verified, un benchmark di coding molto rispettato, che testa la capacità di risolvere problemi software reali presi da repository GitHub. Non è un traguardo da poco. Significa che il modello può effettivamente capire e correggere bug in codebase complessi meglio di qualsiasi altro modello esistente.
Opus 4.5 offre prestazioni da primo della classe su una serie di benchmark che contano davvero. Oltre al record su SWE-Bench, eccelle su Terminal-bench (altro benchmark di coding), tau2-bench e MCP Atlas (uso di strumenti), e ARC-AGI 2 e GPQA Diamond (risoluzione di problemi generali). Insomma, stavolta Anthropic ha ragione di essere orgogliosa.
Ma i benchmark sono solo metà della storia. La vera novità di Opus 4.5 sono le integrazioni pratiche e i miglioramenti alla memoria che rendono il modello effettivamente utile, invece che solo tecnicamente impressionante.
Chrome ed Excel: finalmente fuori dalla fase pilota
Insieme a Opus 4.5, Anthropic sta rendendo più ampiamente disponibili Claude per Chrome e Claude per Excel, prodotti che erano precedentemente in fase pilota limitata. L’estensione Chrome sarà disponibile per tutti gli utenti Max, mentre Claude for Excel sarà accessibile per utenti Max, Team ed Enterprise.
Claude for Chrome permette di usare l’intelligenza artificiale direttamente nel browser per assistenza con ricerca, scrittura, e analisi di pagine web. Claude for Excel porta le capacità AI avanzate nei fogli di calcolo, per modificare i dati, creare formule complesse, e analizzare.
Chat infinita: finalmente
Una delle funzioni più richieste dagli utenti paganti di Claude era la “chat infinita“, e Opus 4.5 finalmente la implementa. Invece di interrompere la conversazione quando il modello raggiunge la sua finestra di contesto, quel limite su quanto testo può tenere in memoria attiva, il modello comprimerà automaticamente la memoria di contesto senza avvisare l’utente.
In pratica significa che è possibile avere conversazioni lunghe senza doversi preoccupare di perdere il filo o dover ricominciare da capo. Il modello gestisce cosa ricordare e cosa comprimere, mantenendo i dettagli importanti mentre libera spazio per nuove informazioni.
Molti degli aggiornamenti sono stati progettati tenendo conto dei casi d’uso degli agenti AI, in particolare scenari dove Opus agisce come agente principale che coordina un gruppo di sub-agenti alimentati da Haiku. Ha senso, Opus, il modello più potente e costoso, prende decisioni strategiche e delega compiti specifici a istanze di Haiku, più veloci e economiche.
La competizione si intensifica
Opus 4.5 entra in un mercato affollato di modelli all’avanguardia appena rilasciati. Per ora, è il migliore, vedremo se verrà superato dal prossimo rilascio di OpenAI o Google, è solo questione di tempo.