Un’indagine condotta da Proof News e pubblicata in collaborazione con Wired ha rivelato che più di 170.000 video di YouTube sono stati utilizzati per addestrare i sistemi di intelligenza artificiale di alcune delle più grandi aziende tecnologiche, tra cui Apple, Anthropic, Nvidia e Salesforce.

Il set di dati, noto come “YouTube Subtitles“, è stato raccolto senza autorizzazione e comprende didascalie provenienti da oltre 48.000 canali YouTube, senza includere le immagini dei video stessi.

Aziende tech usano video YouTube per addestrare l’AI

Il dataset contiene video di creatori di contenuti popolari come MrBeast e Marques Brownlee, oltre a clip di notiziari come ABC News, BBC e New York Times. Anche più di 100 video di The Verge sono presenti nel dataset, insieme a molti altri video di Vox.

Il popolare youtuber Marques Brownlee, noto come MKBHD, ha espresso preoccupazione riguardo all’utilizzo non autorizzato di video di YouTube per addestrare i sistemi di intelligenza artificiale, affermando che questa problematicità è destinata a persistere ancora a lungo.

Apple has sourced data for their AI from several companies One of them scraped tons of data/transcripts from YouTube videos, including mine Apple technically avoids "fault" here because they're not the ones scraping But this is going to be an evolving problem for a long time https://t.co/U93riaeSlY — Marques Brownlee (@MKBHD) July 16, 2024

Nell’ambito dell’inchiesta, Proof News ha rilasciato anche uno strumento di ricerca interattivo che permette di verificare se i propri contenuti o quelli del proprio YouTuber preferito siano stati inseriti nel dataset senza permesso. Questo tool aiuta i creator a comprendere la portata dell’uso improprio dei loro video, fornendo loro maggiore consapevolezza sull’entità del fenomeno.

Il ruolo di EleutherAI

Il dataset di sottotitoli di YouTube fa parte di una raccolta più amia chiamata The Pile, creata dall’organizzazione no-profit EleutherAI. The Pile è una raccolta open source che include anche libri, pagine di Wikipedia ed altro materiale testuale. Lo scorso anno l’analisi di un dataset analogo chiamato Books3 aveva rivelato l’impiego non autorizzato di opere letterarie per l’addestramento di sistemi AI, portando diversi autori a intraprendere azioni legali contro le aziende che aveva utilizzato il data set.

La mancanza di trasparenza delle aziende di AI

Le aziende tech sono spesso poco trasparenti riguardo ai dati utilizzati per a addestrare i sistemi AI. In particolare, l’utilizzo dei contenuti di YouTube è stato un tema centrale negli ultimi mesi. Quando OpenAI ha presentato il suo potente strumento di generazione di video, Sora, il CTO Mira Murati ha evitato di rispondere direttamente alle domande sull’eventuale utilizzo di video di YouTube per l’addestramento del sistema.

La posizione di YouTube sull’utilizzo dei contenuti per l’addestramento dell’AI

L’amministratore delegato di YouTube, Neal Mohan, ha affermato in precedenti interviste che l’uso di contenuti video, incluse le descrizioni, per addestrare l’AI violerebbe i termini della piattaforma. Anche l’amministratore delegato di Google, Sundar Pichai, concorda con la posizione di Moah, sottolineando che se OpenAI avesse effettivamente addestrato Sora sui contenuti di YouTube, avrebbe violato i termini di servizio della piattaforma.