OpenAI: "Impossibile addestrare l'AI senza violare il copyright"

Aggiungi Punto Informatico come Fonte preferita su Google

La celebre citazione di Picasso “I cattivi artisti copiano, i buoni artisti rubano” ben si adatta al campo dell’intelligenza artificiale generativa. Per creare sistemi AI in grado di generare contenuti in modo creativo, è indispensabile “nutrirli” con una grande quantità di dati esistenti su cui effettuare l’addestramento. Questi dati, che possono includere immagini, testi o altro materiale coperto da copyright, costituiscono una sorta di “ispirazione” da cui l’AI impara e trae spunto per produrre nuovi contenuti unici.

Proprio come un artista prende ispirazione dalle opere altrui, assimilandone lo stile, l’intelligenza artificiale ha bisogno di basi di addestramento ampie e diversificate per sviluppare la propria creatività. L’utilizzo di contenuti protetti è quindi una componente essenziale, se non addirittura inevitabile, nello sviluppo di sistemi AI generativi efficaci e sofisticati.

OpenAI e l’addestramento dei modelli LLM

OpenAI è una delle aziende leader nel campo dell’AI generativa. Tra i suoi prodotti più noti ci sono i modelli di linguaggio di grandi dimensioni (LLM), come GPT-4 e DALL-E, che sono in grado di generare testi e immagini coerenti e convincenti a partire da un input testuale (prompt).

Tuttavia, per addestrare questi modelli, OpenAI ha bisogno di utilizzare una grande quantità di dati provenienti da diverse fonti, molte delle quali sono protette da diritto d’autore. In un documento presentato nell’ambito di un’inchiesta britannica sugli LLM, OpenAI ha ammesso che sarebbe “impossibile addestrare i migliori modelli di intelligenza artificiale senza utilizzare materiale protetto da diritto d’autore”, secondo quanto riportato dal Guardian.

OpenAI ha giustificato questa pratica sostenendo che il diritto d’autore copre ormai “praticamente ogni forma di espressione umana, compresi i post dei blog, le fotografie, i post dei forum, i pezzi di codice del software e i documenti governativi”. Inoltre, ha aggiunto che “l’utilizzo di dati di addestramento provenienti da libri e disegni di pubblico dominio creati più di un secolo fa potrebbe essere un esperimento interessante, ma non porterebbe a sistemi di intelligenza artificiale in grado di soddisfare le esigenze di oggi”.

La denuncia del New York Times

Non tutti sono d’accordo con la posizione di OpenAI. Il New York Times, uno dei più prestigiosi quotidiani americani, ha presentato una denuncia contro l’azienda di Sam Altman il 27 dicembre, accusandola di violare il suo diritto d’autore. Il NYT sostiene, con prove alla mano, che i modelli di AI generativa di OpenAI si formano a partire dai suoi articoli, senza il suo consenso. La denuncia include esempi di ChatGPT, che fornisce agli utenti “estratti quasi testuali” di articoli a pagamento del NYT.

OpenAI ha respinto le accuse, affermando di sostenere il giornalismo e di lavorare “in collaborazione con le testate giornalistiche”. In un post sul blog intitolato “OpenAI and journalism”, l’azienda ha dichiarato che “la causa intentata dal New York Times è infondata”. OpenAI ha sostenuto di aver spiegato al NYT che, come ogni singola fonte, il suo contenuto non contribuiva in modo significativo alla formazione dei suoi modelli esistenti, e che le trattative tra le due parti erano in corso prima della denuncia.

Inoltre, OpenAI ha affermato che i testi del NYT “rigurgitati” da ChatGPT “sembrano provenire da articoli vecchi di diversi anni e reperibili su numerosi siti web”. OpenAI ha anche accusato il NYT di aver intenzionalmente manipolato i prompt, in particolare includendo lunghi estratti di articoli, al fine di incoraggiare ChatGPT a fornire il contenuto incriminato. Infine, OpenAI ha sostenuto di consentire agli editori di impedire ai suoi bot di indicizzazione di accedere ai loro siti web.

Altre cause legali contro OpenAI

Il NYT non è l’unico a contestare le pratiche di OpenAI. Di recente, anche alcuni autori americani hanno avviato delle azioni legali contro l’azienda. Sarah Silverman, Richard Kadrey e Christopher Golden hanno annunciato di aver citato in giudizio sia Meta (ex Facebook) che OpenAI per aver usato i loro libri per addestrare i loro modelli di AI generativa, senza il loro permesso. Gli autori sostengono che questo comporta una violazione del loro diritto d’autore e una perdita di entrate.

Queste cause legali evidenziano la necessità di regolamentare l’uso dell’AI generativa e di trovare un equilibrio tra l’innovazione tecnologica e il rispetto della proprietà intellettuale. Si tratta di una sfida complessa, che richiede il coinvolgimento di tutti gli attori coinvolti: sviluppatori, editori, autori, utenti e autorità.

Tiziana Foglio

Pubblicato il 12 gen 2024