Se si danno a Llama due frasi iniziali di un manuale di calcolo, il modello continua a riprodurre il testo parola per parola. Non fa un riassunto o una parafrasi, ma genera il testo esatto, come se lo stesse leggendo dal libro. È uno degli esempi contenuti nella class action depositata da Macmillan, McGraw Hill, Elsevier, Hachette, Cengage e lo scrittore Scott Turow contro Meta, in quella che definiscono una delle più massicce violazioni di materiale protetto da copyright nella storia.
Meta ha addestrato Llama con libri piratati: cinque editori chiedono danni
Le case editrici sostengono che Meta ha deliberatamente scaricato libri e articoli accademici da noti siti pirata, come LibGen, Anna’s Archive, Sci-Hub, Sci-Mag, e li ha usati per addestrare i modelli Llama. L’accusa include anche il dataset Common Crawl, descritto come pieno di copie non autorizzate di opere protette da copyright.
Il risultato è che Llama produce contenuti molto simili all’originale, fino a copiarne interi passaggi parola per parola o con minime variazioni.
L’esempio specifico è il manuale “Calculus: Early Transcendentals” di James Stewart, pubblicato da Cengage, un bestseller usato nelle università di mezzo mondo. Due frasi di input, e Llama continua con il testo esatto del libro.
I precedenti
Non è la prima causa di questo tipo contro Meta. Procedimenti precedenti hanno già fatto emergere discussioni interne su come gestire la copertura mediatica legata all’uso di dataset ritenuti piratati. In uno di questi casi, un giudice federale ha chiarito che la sua decisione non va interpretata come un via libera, non stabilisce che l’uso di materiale protetto da copyright per addestrare i modelli linguistici sia legale.
Anche Anthropic ha affrontato cause simili. Un giudice ha stabilito che addestrare modelli AI su libri acquistati legalmente senza permesso rientra nel fair use, ma ha permesso di procedere con una class action per i milioni di opere che Anthropic avrebbe piratato. Anthropic ha chiuso l’anno scorso pagando 1,5 miliardi di dollari agli scrittori per risolvere la causa.
La difesa di Meta
L’AI alimenta innovazioni trasformative, produttività e creatività per individui e aziende, e i tribunali hanno giustamente stabilito che addestrare l’AI su materiale protetto da copyright può qualificarsi come fair use
, ha detto il portavoce Meta Dave Arnold. Combatteremo questa causa in modo aggressivo.
Intanto le case editrici chiedono danni, il blocco delle attività che considerano illegali, e che il tribunale obblighi Meta a fornire l’elenco completo dei libri, articoli e altre opere su cui ha addestrato Llama.
L’accordo da 1,5 miliardi di dollari di Anthropic ha stabilito un precedente finanziario. La causa contro Meta, con cinque delle più grandi case editrici del mondo come querelanti, potrebbe stabilire un precedente legale. Se Meta viene obbligata a rivelare la lista completa delle opere usate per l’addestramento, il risultato potrebbe avere un impatto notevole sull’intero settore AI. Perché non è solo Meta a usare Common Crawl e dati dal web, è praticamente ogni azienda che addestra modelli linguistici.