Adobe sotto accusa: libri piratati per addestrare l'AI?

Adobe sotto accusa: libri piratati per addestrare l'AI?

Adobe è al centro di una class action. È accusata di aver addestrato il modello SlimLM usando Books3, un dataset contenente libri piratati.
Adobe sotto accusa: libri piratati per addestrare l'AI?
Adobe è al centro di una class action. È accusata di aver addestrato il modello SlimLM usando Books3, un dataset contenente libri piratati.

Anche Adobe si è tuffata a capofitto nell’intelligenza artificiale. Dal 2023 ha sfornato servizi AI a raffica, raggiungendo il culmine con Firefly, la sua suite per generare immagini, video, audio e grafiche vettoriali con l’AI. Ma una recente class action la accusa di aver usato libri piratati per addestrare i suoi modelli linguistici.

La proposta è stata presentata da Elizabeth Lyon, autrice dell’Oregon specializzata in guide alla scrittura saggistica. Punta il dito contro Adobe per aver usato versioni illegali di numerosi testi, inclusi i suoi, per addestrare SlimLM.

Adobe nei guai per l’AI: ha usato opere protette senza permesso

Adobe descrive SlimLM come una piccola serie di modelli linguistici ottimizzata per assistere nella documentazione su dispositivi mobili. Il modello è stato pre-addestrato su SlimPajama-627B, un dataset open source rilasciato da Cerebras a giugno 2023. Fin qui tutto regolare, almeno in apparenza.

Il problema è che SlimPajama non è nato dal nulla. È una versione rielaborata di RedPajama, che a sua volta contiene Books3, quella famigerata raccolta di 191.000 libri che ormai è diventata l’incubo ricorrente della Silicon Valley. Books3 è il dataset maledetto che continua a riemergere in tribunale come uno scheletro nell’armadio che nessuno riesce a seppellire definitivamente.

La causa sostiene che il dataset SlimPajama è stato creato copiando e manipolando il dataset RedPajama (inclusa la copia di Books3). In pratica, Adobe avrebbe addestrato la sua AI su materiale copiato illegalmente, passato di mano in mano attraverso dataset sempre più raffinati, ma mai puliti alla fonte. Questa gigantesca biblioteca pirata ha alimentato sistemi di intelligenza artificiale un po’ ovunque, e ora i nodi stanno venendo al pettine uno dopo l’altro.

A settembre, Apple è finita nel mirino di una causa che la accusava di aver usato materiale protetto da copyright per addestrare Apple Intelligence. Il contenzioso citava espressamente questi dataset e accusava l’azienda di aver copiato opere senza consenso e senza credito o compenso. A ottobre è toccato a Salesforce, finita sotto processo con accuse simili legate all’uso di RedPajama.

Le cause legali contro le aziende tech per violazione del copyright per l’addestramento AI oramai sono diventate una routine. Gli algoritmi di intelligenza artificiale hanno una fame insaziabile, per funzionare bene devono ingurgitare quantità astronomiche di dati. E in alcuni casi, molti, a giudicare dalla frequenza con cui spuntano questi contenziosi, anche materiali piratati.

A settembre, Anthropic ha accettato di pagare 1,5 miliardi di dollari a un gruppo di autori che l’aveva citata in giudizio per aver usato versioni piratate delle loro opere per addestrare Claude, il suo chatbot. Il caso è un precedente importante e potrebbe aver aperto la strada a una lunga serie di accordi miliardari.

Nel caso di Adobe però, il paradosso è ancora più evidente. Ha fatto fortuna vendendo strumenti a designer, fotografi e videomaker, e ora viene accusata di aver usato il lavoro di questi stessi creativi per alimentare la sua intelligenza artificiale.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
18 dic 2025
Link copiato negli appunti