Un dipendente di OpenAI accusa xAI, la società di Elon Musk, di aver pubblicato risultati fuorvianti sui benchmark del suo ultimo modello, Grok 3. Igor Babushkin, uno dei co-fondatori di xAI, respinge le accuse al mittente. Ma chi dice la verità?

Disappointing to see the incentives for the grok team to cheat and deceive in evals.

Tl;dr o3-mini is better in every eval compared to grok 3.

Grok 3 is genuinely a decent model, but no need to over sell. https://t.co/sJj5ByVikp

— Boris Power (@BorisMPower) February 20, 2025