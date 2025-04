Questa settimana, Meta si è cacciata in un bel pasticcio. Ha usato una versione sperimentale e non rilasciata del suo modello Llama 4 Maverick per ottenere un punteggio alto su LM Arena. Un trucchetto che non è piaciuto per niente ai gestori della piattaforma.

I responsabili di LM Arena si sono scusati con gli utenti, hanno cambiato le loro policy e hanno valutato la versione vanilla di Maverick, quella non modificata. Risultato? Non è per niente competitiva.

Meta, modello AI Maverick non brilla nei benchmark

Il modello Maverick non modificato (Llama-4-Maverick-17B-128E-Instruct), si è classificato sotto modelli come GPT-4o di OpenAI, Claude 3.5 Sonnet di Anthropic e Gemini 1.5 Pro di Google. E stiamo parlando di modelli che hanno già qualche mese sulle spalle. Perché questa performance deludente? Meta ha spiegato che la sua versione sperimentale di Maverick, era stata “ottimizzata per la conversazione. Un’ottimizzazione che evidentemente ha giocato bene su LM Arena, dove i valutatori umani confrontano gli output dei modelli e scelgono quello che preferiscono.

The release version of Llama 4 has been added to LMArena after it was found out they cheated, but you probably didn't see it because you have to scroll down to 32nd place which is where is ranks pic.twitter.com/A0Bxkdx4LX — ρ:ɡeσn (@pigeon__s) April 11, 2025

È pur vero che LM Arena non è esattamente l’emblema dell’affidabilità. Ma adattare un modello a un benchmark, oltre a essere fuorviante, rende difficile per gli sviluppatori prevedere esattamente come si comporterà in contesti diversi.

Meta prova a difendersi

Un portavoce di Meta ha spiegato che l’azienda sta testando “tutti i tipi di varianti personalizzate” dei propri modelli di AI. Tra queste c’è anche Maverick, una versione sperimentale ottimizzata per le conversazioni, che secondo Meta ha dato buoni risultati anche sulla piattaforma LMArena.

Con il recente rilascio open source di Llama 4, Meta si aspetta ora che gli sviluppatori inizino a personalizzare il modello in base ai propri casi d’uso. “Siamo curiosi di vedere cosa costruiranno e attendiamo con interesse i loro feedback continui“, ha dichiarato il portavoce.