Quasi due anni fa, Satya Nadella prevedeva con sicurezza che l’intelligenza artificiale avrebbe sostituito il lavoro intellettuale. Avvocati, banchieri, bibliotecari, contabili, esperti IT: tutti destinati a essere rimpiazzati da modelli che ragionano meglio e più velocemente. Era solo questione di tempo. I colletti bianchi potevano iniziare a preoccuparsi.
Gli Agenti AI non sono pronti per il mondo del lavoro
E invece no. Nonostante i progressi enormi dei modelli AI, nonostante tutti i miliardi investiti nell’automazione del lavoro intellettuale, la maggior parte delle professioni d’ufficio è rimasta relativamente immune. Come mai? Secondo il gigante dei dati di addestramento Mercor, la risposta, sostanzialmente, è: l’AI non è pronta. Nemmeno lontanamente.
Mercor ha creato APEX-Agents, un nuovo benchmark che testa come i principali modelli AI se la cavano con compiti reali tipici dei colletti bianchi. I risultati sono stati disastrosi. Anche i sistemi migliori hanno risposto correttamente a poco più di un quarto delle domande. Gemini 3 Flash ha ottenuto il punteggio più alto con un’accuratezza del 24%. GPT-5.2 ha raggiunto il 23%. Gli altri, tra cui Opus 4.5 e GPT-5, si sono attestati intorno al 18%.
Nella stragrande maggioranza dei casi, i modelli hanno fornito una risposta sbagliata o non hanno risposto affatto. È come uno stagista che indovina, dice il CEO di Mercor Brendan Foody. E non è il tipo di stagista a cui affideresti lavoro importante.
Il principale ostacolo per i modelli è stato cercare informazioni sparse tra strumenti diversi. E questo è esattamente ciò che fanno gli esseri umani tutto il giorno, ogni giorno.
COME spiega Foody: Nella vita reale, si opera tra Slack, Google Drive e tutti questi altri strumenti
. Un avvocato deve controllare le email, cercare un precedente legale in un database, recuperare una policy aziendale da SharePoint, verificare un dettaglio su Slack. Tutto questo mentre tiene a mente il contesto generale, ricorda cosa ha letto mezz’ora fa, e collega informazioni da fonti diverse.
L’AI, evidentemente, non sa fare questo. I modelli sono ottimi quando tutto il contesto è in un unico posto, quando le informazioni sono presentate in modo ordinato. Ma quando devono navigare tra strumenti diversi, quando devono ricordare cosa hanno trovato dove e collegare pezzi di informazione sparsi, crollano.
Il lavoro intellettuale è fatto esattamente di questo. Non è rispondere a domande isolate. È costruire un ragionamento complesso partendo da informazioni frammentate sparse in dieci posti diversi. E questo dice molto sullo stato reale dell’AI, al di là dell’hype.
La differenza con i benchmark teorici
OpenAI ha il suo benchmark per competenze professionali, GDPval. Ma APEX-Agents è un’altra storia. GDPval testa la conoscenza generale su una vasta gamma di professioni, ma superficiale. APEX-Agents invece misura la capacità del sistema di eseguire compiti continuativi in un ristretto insieme di professioni ad alto valore. Il risultato dice molto di più sulla possibilità reale di automatizzare questi lavori.
Ma Foody è ottimista sul futuro: L’AI migliora molto velocemente. Al momento è giusto dire che è come uno stagista che indovina la risposta una volta su quattro, ma l’anno scorso era lo stagista che la indovinava il 5 o il 10% delle volte. Un miglioramento di questo tipo, anno dopo anno, può avere un impatto rapidissimo
.
Ma c’è differenza tra migliorare nei benchmark e diventare davvero utile nel mondo reale. Perché un avvocato che sbaglia il 75% delle volte non è uno stagista migliorabile con un po’ di addestramento. È uno stagista pericoloso che può causare danni enormi.
E finché l’AI resta a questo livello, nessun studio legale, nessuna banca d’investimento, nessuna società di consulenza seria permetterà a un modello di fare il lavoro autonomo. Può assistere, può suggerire, può velocizzare le ricerche. Ma non può sostituire.