OpenAI ha pubblicato i risultati di un nuovo benchmark chiamato GDPval per capire quanto i suoi modelli AI si avvicinino al lavoro di veri professionisti. L’esperimento ha coinvolto 44 professioni in nove settori diversi: sanità, finanza, pubblica amministrazione, ecc. Ha messo a confronto la qualità dei report scritti dall’intelligenza artificiale e quelli prodotti da esperti umani per vedere chi se la cavava meglio.

GPT-5 lavora (quasi) come un esperto umano

La versione potenziata di GPT-5, chiamata GPT-5-high, ha ottenuto risultati sorprendenti. È stata giudicata migliore o equivalente al lavoro umano nel 40,6% dei casi. Claude Opus 4.1 di Anthropic ha fatto ancora meglio, raggiungendo il 49%. Secondo OpenAI, il punteggio di Claude potrebbe essere influenzato dalla sua capacità di generare grafici visivamente accattivanti, più che dalla profondità analitica.

GDPval non misura tutto ciò che un professionista fa nel suo lavoro quotidiano. Per ora, il test si concentra su compiti come la redazione di report, non su attività interattive o operative. OpenAI lo sa e promette versioni future più complete, capaci di valutare l’AI su flussi di lavoro più realistici e complessi.

Solo 15 mesi fa, GPT-4o otteneva un punteggio di appena il 13,7% nei test di confronto con gli esseri umani. Ora, GPT-5 ha quasi triplicato quel risultato. Tejal Patwardhan, responsabile delle valutazioni di OpenAI, ha dichiarato che il ritmo di miglioramento è incoraggiante e destinato a continuare.

L’AI come alleata, non come sostituta

Aaron Chatterji, capo economista di OpenAI, ha sottolineato che questi progressi non significano che l’AI sostituirà presto gli esseri umani. Piuttosto, i modelli possono diventare strumenti utili per alleggerire il carico di lavoro e permettere alle persone di concentrarsi su compiti più strategici e creativi.

La Silicon Valley è piena di test per valutare l’intelligenza artificiale, come AIME 2025 per la matematica competitiva o GPQA Diamond per la scienza. Ma molti modelli stanno saturando questi benchmark, e cresce la necessità di strumenti più realistici. GDPval potrebbe diventare uno di questi, a patto però che in futuro riesca a riflettere il lavoro umano nella sua interezza.