I piani alti di Meta avevano un chiodo fisso mentre sviluppavano Llama 3: battere GPT-4 di OpenAI a tutti i costi. È quanto emerge da alcuni messaggi interni svelati martedì da un tribunale durante una delle tante cause sul copyright dell’AI che vede coinvolto il colosso di Menlo Park.

Documenti rivelano l’ossessione di Meta per GPT-4

“Onestamente… Il nostro obiettivo dev’essere GPT-4“, scriveva Ahmad Al-Dahle, VP dell’AI generativa di Meta, in un messaggio dell’ottobre 2023 al ricercatore Hugo Touvron. “Ci stanno arrivando 64mila GPU! Dobbiamo imparare a costruire sistemi all’avanguardia e vincere questa gara.”

Anche se Meta rilascia modelli open source, i suoi leader dell’AI erano molto più concentrati a superare concorrenti che di solito non divulgano i pesi dei loro modelli, come Anthropic e OpenAI, e li proteggono dietro un’API. I dirigenti e i ricercatori di Meta consideravano Claude di Anthropic e GPT-4 di OpenAI come lo standard da raggiungere.

La startup francese Mistral, uno dei maggiori competitor di Meta, veniva menzionata più volte nei messaggi interni, ma con toni sprezzanti. “Mistral sono noccioline per noi“, diceva Al-Dahle in un messaggio. “Dovremmo essere capaci di fare di meglio“, aggiungeva poi.

Oggi le aziende tech fanno a gara per sorpassarsi a vicenda con modelli AI all’ultimo grido, ma questi documenti legali rivelano quanto i leader dell’AI di Meta fossero veramente competitivi, e a quanto pare lo sono ancora. In diversi scambi, i responsabili dell’AI di Meta parlavano di quanto fossero “molto aggressivi” nell’ottenere i dati giusti per addestrare Llama; a un certo punto, un dirigente disse perfino che “Llama 3 è letteralmente l’unica cosa che mi interessa” in un messaggio ai colleghi.

L’accusa di usare libri protetti da copyright per addestrare Llama

I pubblici ministeri in questo caso sostengono che talvolta gli executive di Meta abbiano preso delle scorciatoie nella loro folle corsa al lancio di modelli AI, finendo per usare libri coperti da copyright per l’addestramento.

Touvron notava in un messaggio che il mix di dataset usati per Llama 2 “era pessimo“, e parlava di come Meta potesse usare un mix diverso di fonti di dati per migliorare Llama 3. Touvron e Al-Dahle discutevano poi di spianare la strada all’uso del dataset LibGen, che contiene opere protette da copyright di Cengage Learning, Macmillan Learning, McGraw Hill e Pearson Education.

Le ambizioni di Zuckerberg su Llama

Mark Zuckerberg, CEO di Meta, ha già detto in passato di voler colmare il divario di prestazioni tra i modelli AI di Llama e quelli chiusi di OpenAI, Google e altri. I messaggi interni rivelano l’intensa pressione all’interno dell’azienda per riuscirci.

“Quest’anno, Llama 3 è competitivo con i modelli più avanzati ed è leader in alcune aree“, scriveva Zuckerberg in una lettera del luglio 2024. “A partire dal prossimo anno, ci aspettiamo che i futuri modelli Llama diventino i più avanzati del settore.”

Quando Meta ha finalmente rilasciato Llama 3 ad aprile 2024, il modello open AI era competitivo con i principali modelli chiusi di Google, OpenAI e Anthropic, e superava le alternative open source di Mistral. Tuttavia, i dati che Meta ha usato per addestrare i suoi modelli – dati che Zuckerberg avrebbe autorizzato a usare, nonostante fossero protetti da copyright – sono sotto esame in diverse cause legali in corso.