GPT-5.4 di OpenAI è qui, promette meno errori e più efficienza

OpenAI ha rilasciato GPT-5.4, presentandolo come il modello più capace ed efficiente per il lavoro professionale. Arriva in tre versioni, standard, Thinking (per il ragionamento) e Pro (ottimizzato per le massime prestazioni), e con una finestra di contesto da un milione di token, la più grande mai offerta da OpenAI.

GPT-5.4 di OpenAI: tre versioni, un milione di token e meno allucinazioni

I benchmark parlano chiaro, almeno sulla carta. GPT-5.4 ha stabilito nuovi record in OSWorld-Verified e WebArena Verified, test sull’uso del computer, e ha raggiunto l’83% nel test GDPval di OpenAI per compiti di lavoro intellettuale. Ha anche conquistato la prima posizione nel benchmark APEX-Agents di Mercor, progettato per testare le competenze professionali in ambito legale e finanziario.

Secondo il CEO di Mercor Brendan Foody, eccelle nella creazione di prodotti complessi come presentazioni, modelli finanziari e analisi legali. Un dato meno appariscente, ma forse più importante: GPT-5.4 riesce a risolvere gli stessi problemi del predecessore usando meno token. Meno token significa risposte più rapide e costi inferiori per chi usa il modello via API, un miglioramento degno di nota per chi ci costruisce sopra un prodotto.

OpenAI dichiara che GPT-5.4 ha il 33% di probabilità in meno di commettere errori nelle singole affermazioni rispetto a GPT-5.2, e che le risposte complessive hanno il 18% in meno di probabilità di contenere errori. I numeri, chiaramente, vanno presi per quello che sono, percentuali fornite dall’azienda stessa, ma tutte da verificare. Le allucinazioni restano il tallone d’Achille dei modelli linguistici, e qualsiasi miglioramento misurabile è il benvenuto.

Tool Search: meno token per gli strumenti

Per gli sviluppatori, la novità più rilevante potrebbe essere Tool Search, un nuovo sistema per la gestione delle chiamate agli strumenti nell’API. Fino ad oggi, i prompt di sistema dovevano elencare le definizioni di tutti gli strumenti disponibili, un processo che consumava token in modo proporzionale al numero di strumenti. Con Tool Search, il modello cerca le definizioni degli strumenti al bisogno, per ridurre costi e tempi di risposta nei sistemi con molti strumenti integrati.

Sicurezza: quanto è onesta la catena di pensiero?

Sul fronte sicurezza, OpenAI ha introdotto una nuova valutazione per testare la catena di pensiero dei modelli, quel ragionamento passo dopo passo che i modelli di ragionamento mostrano mentre elaborano una risposta. I ricercatori di sicurezza AI temono da tempo che i modelli possano imparare a falsificare la propria catena di pensiero, nascondendo il vero processo decisionale.

Secondo i test di OpenAI, la versione Thinking di GPT-5.4 tenderebbe meno all’inganno, il modello non può nascondere il proprio ragionamento, e monitorare la catena di pensiero si conferma uno strumento di sicurezza utile. È un risultato incoraggiante. Lo sarebbe ancora di più se a stabilirlo non fosse la stessa azienda che produce e vende il modello.

Tiziana Foglio

Pubblicato il 6 mar 2026