Un gruppo di YouTuber con oltre 6 milioni di iscritti complessivi ha fatto causa a Snap, accusandola di aver usato i loro video senza permesso per addestrare i suoi modelli di intelligenza artificiale. Non è la prima volta che succede, gli stessi creator hanno già citato in giudizio Nvidia, Meta e ByteDance per lo stesso motivo.

YouTuber citano Snap per violazione del copyright

Stando all’accusa, Snap ha preso i video da YouTube, e li ha usati per addestrare la sua AI generativa (quella che alimenta funzioni come “Lente Imagine” su Snapchat). Ma non ha pagato nessuno, né chiesto l’autorizzazione. Ha violato i termini di servizio di YouTube, le restrizioni tecniche, e le licenze dei dataset che ha usato, che erano destinati solo alla ricerca accademica, non all’uso commerciale.

È solo una delle oltre 70 cause per violazione del copyright intentate contro le aziende AI. Autori, editori, giornalisti, artisti, creator, tutti che accusano le big tech di aver rubato il loro lavoro per alimentare chatbot, generatori di immagini, e strumenti vari. Alcune cause sono state vinte dalle aziende, altre si sono chiuse con accordi economici, molte sono ancora in corso.

Il problema è sempre lo stesso: l’AI ha bisogno di un’enorme quantità di dati per funzionare, e le aziende tech li hanno presi dove li hanno trovati, spesso senza chiedere il permesso a nessuno. Ora i creatori di contenuti vogliono essere pagati, o almeno che si smetta di usare il loro lavoro senza consenso.

Il dataset HD-VILA-100M

Nella class action depositata venerdì presso la Corte Distrettuale degli Stati Uniti per il Distretto Centrale della California, gli YouTuber accusano Snap di aver usato HD-VILA-100M, un dataset video-linguistico gigantesco creato per scopi accademici e di ricerca.

Quel dataset ha una licenza che vieta esplicitamente l’uso commerciale. È stato messo insieme da ricercatori per fare esperimenti, non per addestrare prodotti venduti al pubblico. Ma Snap, secondo i querelanti, lo ha usato comunque per sviluppare il suo modello AI. E non è solo HD-VILA-100M. La causa cita altri dataset creati esclusivamente per scopi accademici e di ricerca.

Per farlo, sostengono i querelanti, Snap ha aggirato i termini di servizio di YouTube, e le limitazioni delle licenze. In pratica, ha scaricato video che non doveva scaricare, con metodi che non doveva usare, per scopi che non erano autorizzati.

I querelanti

La causa è guidata da creatori del canale YouTube h3h3, che ha 5,52 milioni di iscritti. È un canale grosso, popolare, con video che generano milioni di visualizzazioni. Poi ci sono MrShortGame Golf e Golfholics, canali più piccoli, ma comunque con centinaia di migliaia di iscritti.

Non chiedono solo il risarcimento dei danni, anche un’ingiunzione permanente per fermare la presunta violazione in futuro.

Oltre 70 cause contro le aziende di AI

Secondo la Copyright Alliance, un’organizzazione non-profit che difende i diritti d’autore, sono già state intentate oltre 70 cause per violazione del copyright contro le aziende di intelligenza artificiale.

Il tema di fondo è sempre lo stesso, i modelli AI generativi hanno bisogno di dati: testi, immagini, video, audio. Miliardi di esempi. E le aziende tech hanno preso quei dati da Internet senza farsi troppi problemi, sostenendo che fosse fair use o che i contenuti fossero pubblicamente disponibili, quindi liberi di usare.

I creator non sono d’accordo. Dire che i contenuti sono su Internet non è una giustificazione legale. Soprattutto quando si usano per costruire prodotti commerciali che generano miliardi di dollari… Intanto Snap non ha ancora commentato.

Per anni, le aziende tech hanno preso dati da Internet assumendo che fosse lecito. Ora spetta ai tribunali stabilire se è proprio così o meno. Se i creatori di contenuti vinceranno molte di queste cause, le aziende di AI saranno costrette a cambiare strategia. Pagare licenze, ottenere permessi, usare solo dati con licenze esplicite. Incrociamo le dita.