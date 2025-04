Un rumor non confermato, diventato virale su X e Reddit, accusa Meta di aver manipolato i risultati dei benchmark per far apparire i suoi modelli AI Llama 4 più capaci di quello che sono in realtà.

A rispondere alle accuse ci ha pensato Ahmad Al-Dahle, vicepresidente dell’AI generativa di Meta. In un post su X, Al-Dahle ha bollato come “semplicemente false” le voci secondo cui l’azienda avrebbe addestrato Maverick e Scout sui “test set”, ovvero i dataset usati per valutare le prestazioni di un modello dopo il training. Un’operazione che, se confermata, avrebbe gonfiato in modo fuorviante i punteggi dei benchmark, facendo apparire i modelli più performanti di quanto non siano nella realtà.

We're glad to start getting Llama 4 in all your hands. We're already hearing lots of great results people are getting with these models.

That said, we're also hearing some reports of mixed quality across different services. Since we dropped the models as soon as they were…

