Grok 4 batte tutti nei test più difficili, ma fallisce con i problemi reali

Sui benchmark ufficiali, Grok 4 è un fenomeno. Primo in matematica, secondo nella programmazione, record nel test “Humanity’s Last Exam”. Ma quando arriva il momento della verità, quello dei test dal vivo con utenti reali, crolla al 66° posto.

La domanda non è se Elon Musk abbia esagerato (spoiler: l’ha fatto), ma perché continuiamo a fidarci di classifiche che misurano tutto tranne quello che conta davvero: funzionare nella vita vera.

Grok 4 domina i test: ma gli utenti reali lo bocciano

Grok 4 Heavy ha ottenuto il 100% di accuratezza nel test AIME 2025 e 88.9% nel GPQA, superando modelli di OpenAI, Google e Anthropic. Nel benchmark ARC-AGI-2, ha raggiunto un record del 15.9%, doppiando le prestazioni del modello successivo.

Musk ha dichiarato che Grok 4 è più intelligente di quasi tutti gli studenti laureati in tutte le discipline, simultaneamente. Una affermazione audace che sui test standardizzati sembra reggere: nel “Humanity’s Last Exam” ha ottenuto 44.4% con la versione Heavy, contro il 26.9% di Gemini Pro e il 24.9% di o3 di OpenAI.

Ma quando Grok 4 viene testato sulla piattaforma LMArena di Berkeley, che usa votazioni crowdsourced su compiti reali, si piazza solo al terzo posto. Peggio ancora, su Yupp.ai, dove gli utenti votano dopo aver testato direttamente i modelli, Grok 4 precipita al 66° posto.

Grok, il primo della classe solo nei quiz

Il problema non sono i numeri gonfiati, è che Grok 4 ha problemi nel debugging di bug Python critici, nell’estrarre punti chiave da documenti legali densi, o nel riassumere in modo conciso ricerche intricate. Tutte cose che un laureato vero saprebbe fare senza alcun problema.

In pratica, il modello è stato ottimizzato specificamente per performare sui benchmark, ma questo lo ha reso rigido e inadatto alle sfide del mondo reale. E di fronte alle situazioni nuove e impreviste fa cilecca. Come quelli che a scuola imparavano tutto a memoria e prendevano sempre 10 ai quiz, ma poi non sapevano risolvere un problema mai visto prima.

Le prestazioni di Grok 4 sono completamente incoerenti: da una parte ottiene punteggi straordinari nei test accademici standardizzati, dall’altra commette errori banali che modelli concorrenti come o3 di OpenAI o Claude 4 Opus non farebbero mai.

Sì, i benchmark mentono

Chatbot arena, una delle piattaforme più importanti per la valutazione dei modelli AI, è stata accusata di condurre test in modo scorretto, addirittura prima di pubblicare i risultati ufficiali. Inoltre, poteva cancellare le classifiche quando voleva senza spiegazioni. Il caso più eclatante è stato quello di Meta. L’azienda ha inviato per i test una versione speciale di LLaMA 4, diversa da quella che poi ha rilasciato al pubblico.

Ma il problema va oltre le classifiche truccate. È il sistema stesso di valutazione che non funziona. Misurare l’intelligenza artificiale solo su test standardizzati è come giudicare un chirurgo solo sui voti di medicina e poi scoprire che non sa tenere in mano un bisturi.

Finché misureremo il successo dell’AI sui test invece che si risultati, continueremo a costruire sistemi che impressionano nelle demo e deludono nel mondo reale.

Fonte: X

Tiziana Foglio

Pubblicato il 17 lug 2025