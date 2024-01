Si è fatta attendere meno di un paio di settimane la replica di OpenAI al New York Times, conseguente alla denuncia che la testata ha presentato, a fine dicembre, nei confronti dell’organizzazione e del suo partner Microsoft. L’accusa, lo ricordiamo per chi ha perso le puntate precedenti, è quella di violazione del copyright: strumenti come ChatGPT e Copilot genererebbero testi contenenti estratti dagli articoli pubblicati dall’editore, anche quelli accessibili solo dagli abbonati e protetti da metodi come un paywall.

OpenAI e NYT: opt-out, fair use e regurgitation

In estrema sintesi, la società si dichiara in disaccordo con la tesi sostenuta dal NYT, affermando però al tempo stesso di essere disposta a cogliere l’opportunità per chiarire la natura e le finalità del proprio business. Riportiamo di seguito in forma tradotta quanto si legge in un lungo intervento comparso sulle pagine del blog ufficiale.

Anche se non siamo d’accordo con le affermazioni nella causa legale del New York Times, la vediamo come un’opportunità per chiarire il nostro business, il nostro intento e il modo in cui costruiamo la nostra tecnologia.

OpenAI riepiloga la propria posizione e le proprie intenzioni inerenti al rapporto con gli editori in quattro punti.

Volontà di collaborare con le testate giornalistiche per creare nuove opportunità; il training è fair use, ma è fornita una modalità di opt-put; la cosiddetta regurgitation è un bug raro e sono in corso i lavori per risolverlo; il New York Times non sta raccontando tutta la storia.

Qualche doveroso chiarimento. Per modalità di opt-out si intende la possibilità, offerta agli editori, di escludere i loro articoli dal processo di addestramento degli algoritmi di intelligenza artificiale. Il fenomeno etichettato come regurgitation, invece, fa riferimento all’inclusione di estratti dagli articoli restituiti in output dal modello IA, dopo aver ricevuto in input un determinato prompt.

Scraping e addestramento, questo è il problema

Al centro della discussione ci sono, anzitutto, le modalità attuate da OpenAI per il processo di addestramento dei modelli GPT posti poi al servizio di strumenti come i già citati ChatGPT e Copilot di Microsoft. Il processo si è fin qui mosso entro i confini di un sostanziale gap normativo, un’assenza di regole ben definite che ha mostrato il fianco all’attività di scraping, la raccolta massiva dei contenuti online, inclusi quelli pubblicati dagli editori.

La dinamica è simile a quella già presa in esame negli anni scorsi con riferimento a un altro progetto legato all’intelligenza artificiale, nel caso Clearview. All’epoca, alla startup era contestata l’accaparramento e l’utilizzo indiscriminato di miliardi di immagini trovate sul Web (anche quelle condivise via social), per istruire un sistema di riconoscimento facciale.

New York Times e OpenAI: collaborazione possibile?

Il quarto dei punti elencati in precedenza è quello che pone OpenAI in una posizione di contrattacco: il New York Times non avrebbe raccontato tutta la storia o avrebbe quantomeno fornito una rappresentazione parziale dei fatti. L’organizzazione guidata da Sam Altman sostiene di aver collaborato in modo costruttivo con la testata fino al 19 dicembre, valutando le modalità di una partnership finalizzata all’inclusione in ChatGPT di risultati aggiornati in tempo reale.

L’editore si sarebbe poi rifiutato di fornire informazioni dettagliate a proposito del fenomeno della regurgitation, impedendo quindi ai tecnici della controparte di intervenire apportando correzioni mirate. Inoltre, avrebbe intenzionalmente manipolato i prompt in modo da ottenere risultati contenenti lunghi estratti dai propri articoli, a sostegno dell’accusa mossa, senza specificare che i testi possono essere raggiunti attraverso siti di terze parti.