L’intelligenza artificiale sta letteralmente divorando il mondo della programmazione. Quello che una volta richiedeva ore di lavoro tedioso, scrivere codice ripetitivo, correggere bug banali, strutturare file, ora viene svolto da agenti AI che lavorano in tandem con gli sviluppatori umani.
Claude Code e Cowork di Anthropic si sono fatti strada con il cosiddetto “coding agentico”, agenti AI che scrivono codice in autonomia, senza bisogno di supervisione continua. OpenAI ha Codex, partito come interfaccia a riga di comando ad aprile e poi arrivato sul web a maggio. Strumenti utili, certo, ma niente di straordinario.
OpenAI insegue Claude Code: arriva la nuova app Codex per Mac
Ora, però, OpenAI vuole recuperare il tempo perso. Ha appena lanciato una nuova app per macOS dedicata a Codex. È progettata per orchestrare più agenti che lavorano in parallelo, ognuno specializzato in compiti specifici, per integrare competenze diverse e flussi di lavoro in un unico ambiente fluido. Il lancio arriva a meno di due mesi dal debutto di GPT-5.2-Codex, il modello di programmazione più potente che OpenAI abbia mai creato, quello con cui sperano di strappare utenti a Claude Code…
Se vuoi davvero fare un lavoro sofisticato su qualcosa di complesso, GPT-5.2-Codex è di gran lunga il modello più forte
, ha dichiarato Sam Altman durante una conferenza stampa con i giornalisti. Tuttavia, finora è stato più difficile da usare; crediamo che portare quel livello di capacità del modello in un’interfaccia più flessibile farà una differenza notevole
.
La fiducia di Altman in GPT-5.2 è comprensibile, dopotutto, è il suo prodotto e deve venderlo. Ma quando si guardano i benchmark di programmazione, le cose cambiano. GPT-5.2 occupa effettivamente il primo posto su TerminalBench, un test che misura quanto bene un’AI gestisce compiti di programmazione tramite riga di comando.
Il problema è che gli agenti di Gemini 3 e Claude Opus hanno registrato punteggi quasi identici. Tecnicamente inferiori, sì, ma entro il margine di errore del test. Il che significa che, nella pratica reale, la differenza potrebbe essere impercettibile. Stessa storia con SWE-bench, che testa la capacità dell’AI di correggere bug software autentici estratti da repository GitHub: nessun vantaggio chiaro per GPT-5.2.
Certo, i casi d’uso sono notoriamente difficili da testare in modo efficace. L’esperienza utente può variare enormemente tra un modello e l’altro in base a mille variabili: dal tipo di progetto alla complessità del codice, dalla qualità delle istruzioni iniziali alla pazienza dello sviluppatore. Ma resta il fatto che OpenAI non regna sovrano come vorrebbe far credere.
Le nuove armi di Codex
Per compensare, Codex di OpenAI introduce una serie di funzionalità pensate per raggiungere, o superare, le capacità delle app di Claude. Alcune sono decisamente interessanti:
- Automazioni in background: è possibile programmare esecuzioni che girano in autonomia mentre si fa altro, con i risultati che finiscono in una coda di revisione.
- Personalità degli agenti: si può scegliere lo stile dell’agente AI in base al proprio metodo di lavoro.
Per OpenAI, il vero punto di forza non sta nelle singole funzionalità. È la velocità complessiva di sviluppo che l’AI rende possibile. Ha detto: Puoi partire da un foglio bianco e creare un software davvero sofisticato in poche ore
.
Ma la velocità non è tutto. La qualità del codice, la sua manutenibilità, la capacità di uno sviluppatore in carne e ossa di comprenderlo e modificarlo in futuro, questi aspetti contano almeno quanto la rapidità con cui viene generato. Quindi stiamo costruendo software migliori più velocemente, o stiamo semplicemente costruendo più software? Perché non sono necessariamente la stessa cosa.