Un dipendente di OpenAI accusa xAI, la società di Elon Musk, di aver pubblicato risultati fuorvianti sui benchmark del suo ultimo modello, Grok 3. Igor Babushkin, uno dei co-fondatori di xAI, respinge le accuse al mittente. Ma chi dice la verità?
Disappointing to see the incentives for the grok team to cheat and deceive in evals.
Tl;dr o3-mini is better in every eval compared to grok 3.
Grok 3 is genuinely a decent model, but no need to over sell. https://t.co/sJj5ByVikp
— Boris Power (@BorisMPower) February 20, 2025
Grok 3, il bluff di xAI? La polemica infiamma il web
Al centro della polemica c’è AIME 2025, una raccolta di difficili quesiti matematici tratti da un recente esame a invito. Alcuni esperti dubitano della validità di AIME come benchmark per l’AI. Eppure, AIME 2025 e le versioni precedenti del test sono comunemente usati per misurare le abilità matematiche dei modelli.
xAI ha pubblicato un grafico che mostra due varianti di Grok 3, Grok 3 Reasoning Beta e Grok 3 mini Reasoning, battere il modello più performante di OpenAI, o3-mini-high, su AIME 2025. Ma i dipendenti di OpenAI hanno subito fatto notare che il grafico di xAI non includeva il punteggio di o3-mini-high a “cons@64”.
Cos’è cons@64? In breve, sta per “consensus@64”, e fondamentalmente dà a un modello 64 tentativi per rispondere a ogni problema di un benchmark, prendendo le risposte generate più frequentemente come quelle definitive. Come si può immaginare, cons@64 tende ad aumentare notevolmente i punteggi dei modelli sui benchmark. Omettere questo dato da un grafico potrebbe far sembrare che un modello superi un altro, quando in realtà non è così.
I punteggi di Grok 3 Reasoning Beta e Grok 3 mini Reasoning per AIME 2025 a “@1” – cioè il primo punteggio ottenuto dai modelli sul benchmark – risultano inferiori a quello di o3-mini-high. Grok 3 Reasoning Beta è anche leggermente dietro al modello o1 di OpenAI impostato su una potenza di calcolo “media”. Eppure xAI pubblicizza Grok 3 come “l’AI più intelligente del mondo“.
Babushkin controbatte, ma non convince
Babushkin sostiene che anche OpenAI ha pubblicato in passato grafici altrettanto fuorvianti, seppur confrontando le prestazioni dei propri modelli. Un osservatore più neutrale ha messo insieme un grafico più “accurato” che mostra le prestazioni di quasi tutti i modelli a cons@64. Ma resta un mistero la metrica forse più importante: il costo computazionale (e monetario) necessario a ogni modello per ottenere il suo punteggio migliore.
Completely wrong. We just used the same method you guys used 🤷♂️ pic.twitter.com/exLcS0z2xI
— Igor Babuschkin (@ibab) February 20, 2025
Benchmarking, un’arte imperfetta
Questo caso dimostra quanto poco la maggior parte dei benchmark per l’AI comunichino sui limiti – e sui punti di forza – dei modelli. Misurare l’intelligenza artificiale è un’arte ancora imperfetta, soggetta a interpretazioni e manipolazioni. Forse, invece di inseguire record e primati, dovremmo concentrarci di più sulla trasparenza e sull’equità nel confronto tra modelli.