Grok 3, xAI ha mentito sui risultati dei benchmark?

Grok 3, xAI ha mentito sui risultati dei benchmark?

xAI è accusata di aver pubblicato dati fuorvianti sui benchmark di Grok 3, omettendo alcuni punteggi per apparire migliore.
Grok 3, xAI ha mentito sui risultati dei benchmark?
xAI è accusata di aver pubblicato dati fuorvianti sui benchmark di Grok 3, omettendo alcuni punteggi per apparire migliore.

Un dipendente di OpenAI accusa xAI, la società di Elon Musk, di aver pubblicato risultati fuorvianti sui benchmark del suo ultimo modello, Grok 3. Igor Babushkin, uno dei co-fondatori di xAI, respinge le accuse al mittente. Ma chi dice la verità?

Grok 3, il bluff di xAI? La polemica infiamma il web

Al centro della polemica c’è AIME 2025, una raccolta di difficili quesiti matematici tratti da un recente esame a invito. Alcuni esperti dubitano della validità di AIME come benchmark per l’AI. Eppure, AIME 2025 e le versioni precedenti del test sono comunemente usati per misurare le abilità matematiche dei modelli.

xAI ha pubblicato un grafico che mostra due varianti di Grok 3, Grok 3 Reasoning Beta e Grok 3 mini Reasoning, battere il modello più performante di OpenAI, o3-mini-high, su AIME 2025. Ma i dipendenti di OpenAI hanno subito fatto notare che il grafico di xAI non includeva il punteggio di o3-mini-high a “cons@64”.

Cos’è cons@64? In breve, sta per “consensus@64”, e fondamentalmente dà a un modello 64 tentativi per rispondere a ogni problema di un benchmark, prendendo le risposte generate più frequentemente come quelle definitive. Come si può immaginare, cons@64 tende ad aumentare notevolmente i punteggi dei modelli sui benchmark. Omettere questo dato da un grafico potrebbe far sembrare che un modello superi un altro, quando in realtà non è così.

I punteggi di Grok 3 Reasoning Beta e Grok 3 mini Reasoning per AIME 2025 a “@1” – cioè il primo punteggio ottenuto dai modelli sul benchmark – risultano inferiori a quello di o3-mini-high. Grok 3 Reasoning Beta è anche leggermente dietro al modello o1 di OpenAI impostato su una potenza di calcolo “media”. Eppure xAI pubblicizza Grok 3 come “l’AI più intelligente del mondo“.

Babushkin controbatte, ma non convince

Babushkin sostiene che anche OpenAI ha pubblicato in passato grafici altrettanto fuorvianti, seppur confrontando le prestazioni dei propri modelli. Un osservatore più neutrale ha messo insieme un grafico più “accurato” che mostra le prestazioni di quasi tutti i modelli a cons@64. Ma resta un mistero la metrica forse più importante: il costo computazionale (e monetario) necessario a ogni modello per ottenere il suo punteggio migliore.

Benchmarking, un’arte imperfetta

Questo caso dimostra quanto poco la maggior parte dei benchmark per l’AI comunichino sui limiti – e sui punti di forza – dei modelli. Misurare l’intelligenza artificiale è un’arte ancora imperfetta, soggetta a interpretazioni e manipolazioni. Forse, invece di inseguire record e primati, dovremmo concentrarci di più sulla trasparenza e sull’equità nel confronto tra modelli.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
23 feb 2025
Link copiato negli appunti