Meta ha usato libri piratati per addestrare Llama

Meta ha usato libri piratati per addestrare Llama

I dipendenti di Meta sono stati autorizzati a scaricare circa 82 TB di dati da siti che distribuiscono copie pirata dei libri per l'addestramento AI.
Meta ha usato libri piratati per addestrare Llama
I dipendenti di Meta sono stati autorizzati a scaricare circa 82 TB di dati da siti che distribuiscono copie pirata dei libri per l'addestramento AI.

Meta ha utilizzato le copie pirata di numerosi libri per l’addestramento dei suoi modelli Llama. Dalle email allegate ai documenti presentati in tribunale per la causa attualmente in corso risulta chiaro che i dipendenti dell’azienda californiana hanno scaricato quasi 82 TB di dati dalle cosiddette “librerie ombra”. L’autorizzazione sarebbe arrivata direttamente dal CEO Mark Zuckerberg.

Copie pirata scaricate tramite Torrent

Meta è stata denunciata da diversi autori all’inizio di luglio 2023 per aver utilizzato le loro opere, violando il copyright. Due giorni fa sono state depositate prove schiaccianti che dimostrano la colpevolezza dell’azienda di Menlo Park.

I dipendenti di Meta sono stati autorizzati a scaricare circa 82 TB di dati tramite Torrent. La fonte è il sito Anna’s Archive, attraverso il quale si possono scaricare le copie pirata dei libri ospitati da note “librerie ombra”, tra cui LibGen e Z-Library. Gli avvocati degli autori sottolineano che in passato sono state avviate indagini penali per una quantità di dati molto inferiore (circa lo 0,008% di quelli scaricati da Meta).

Alcune email presenti nella documentazione confermano che Meta era consapevole dell’illegalità. Un ingegnere aveva evidenziato i rischi derivanti dall’uso di un notebook aziendale per scaricare i dati tramite Torrent, in quanto venivano esposti gli indirizzo IP dell’azienda. Aveva quindi suggerito di usare una VPN.

Meta ha ammesso il download da LibGen e altri simili librerie, ma afferma che l’uso dei dati per l’addestramento dei modelli Llama è consentito dalla legge sul copyright perché si tratta di “fair use”. Vedremo cosa deciderà il giudice alla fine del processo.

Fonte: Ars Technica
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
7 feb 2025
Link copiato negli appunti