L’intelligenza artificiale di Meta non si limita a essere “ispirata” dai libri su cui viene addestrata, ma li memorizza quasi per intero. E questo cambia un po’ le cose.

Meta nei guai, Llama 3.1 conosce a memoria Harry Potter

I ricercatori di Stanford, Cornell e West Virginia University hanno dimostrato che una versione del modello di punta di Meta, Llama 3.1, ha memorizzato quasi completamente il primo libro di Harry Potter. Non si tratta di vaghe somiglianze o di ispirazione. Il modello è riuscito a riprodurre il 91% de “La Pietra Filosofale” quando sollecitato con brevi frammenti di testo.

I ricercatori hanno suddiviso i libri in sezioni sovrapposte di 100 “token” (unità di testo come parole o punteggiatura), presentando al modello la prima metà e chiedendogli di completare il resto. Il risultato per Harry Potter è stato schiacciante.

Quello che rende questa scoperta ancora più esplosiva sono le implicazioni legali. Se un sistema AI memorizza letteralmente un libro, il modello stesso potrebbe essere considerato una copia del libro. In pratica, ogni volta che Meta distribuisce il suo Llama 3.1 70B, potrebbe involontariamente distribuire milioni di copie pirata di Harry Potter.

Facendo un po’ i conti, il modello Llama 3.1 70B è stato scaricato circa un milione di volte dal suo lancio, il che significa che Meta potrebbe aver accidentalmente creato la più grande operazione di pirateria libraria della storia.

È emerso anche un dettaglio curioso. Sembra che il modello AI di Meta abbia delle preferenze di lettura. Alcuni libri, come Harry Potter, 1984 e Il Trono di Spade, sono stati memorizzati quasi parola per parola. Altri, come Twilight, sono completamente ignorati. Non è un caso. I modelli AI tendono a memorizzare meglio i contenuti che circolano molto online o che, durante la fase di addestramento, sono stati trattati con maggiore enfasi tecnica.

Il dibattito sul copyright

Finora, il dibattito si è polarizzato su due fronti. Da una parte, le aziende di AI sostengono che i loro modelli sono generativi, creano contenuti originali invece di essere sofisticati copia-incolla. Dall’altra, autori e giornalisti accusano l’AI di limitarsi a rimescolare materiale esistente rubato dai loro archivi.

Mark A. Lemley, uno degli autori dello studio, ribalta entrambe le posizioni: “La realtà è più complessa. La nostra ricerca dimostra che l’AI non è né puramente creativa né un semplice collage di contenuti esistenti“. I modelli, infatti, a volte memorizzano letteralmente interi passaggi, altre volte li rielaborano, altre ancora creano qualcosa di completamente nuovo.

Questa scoperta potrebbe aprire la strada a nuove forme di regolamentazione. Come suggerisce Grimmelmann, i tribunali potrebbero fissare delle soglie. Ad esempio, memorizzare più del 10% di un libro potrebbe costituire violazione del copyright, mentre sotto quella percentuale potrebbe essere considerato uso accettabile.