OpenAI si trova ancora una volta al centro delle polemiche. Dopo le accuse di aver addestrato i suoi modelli AI su contenuti coperti da copyright senza permesso, ora un nuovo studio getta un’ombra ancora più oscura sulla società.

OpenAI accusata di usare libri O’Reilly protetti da copyright per addestrare ChatGPT

Il report incriminato arriva dall’AI Disclosures Project, un’organizzazione no-profit co-fondata nel 2024 dal magnate dei media Tim O’Reilly e dall’economista Ilan Strauss. Secondo i ricercatori, OpenAI avrebbe utilizzato i libri pubblicati da O’Reilly Media, che non sono liberamente accessibili né concessi in licenza per l’addestramento AI. Questi testi, dunque, potrebbero essere stati impiegati senza autorizzazione per migliorare le capacità dei modelli più avanzati dell’azienda.

Il modello finito nel mirino è GPT-4o, quello di default in ChatGPT. Secondo il paper, questo modello dimostra una forte “familiarità” con il contenuto dei libri a pagamento di O’Reilly, molto maggiore rispetto al precedente GPT-3.5 Turbo. E il bello è che O’Reilly non ha alcun accordo di licenza con OpenAI.

Per arrivare a questa conclusione, i ricercatori hanno usato un metodo chiamato DE-COP, introdotto per la prima volta in un paper accademico nel 2024. Questo metodo è progettato per rilevare contenuti protetti da copyright nei dati di addestramento dei modelli linguistici. In pratica, verifica se un modello è in grado di distinguere in modo affidabile testi scritti da umani da versioni parafrasate e generate dall’AI degli stessi testi. Se ci riesce, suggerisce che il modello potrebbe avere una conoscenza pregressa del testo dai suoi dati di addestramento.

I risultati non lasciano dubbi (o forse sì?)

Secondo i risultati del paper, GPT-4o “riconosce” molto più contenuto di libri a pagamento di O’Reilly rispetto ai modelli più vecchi di OpenAI, incluso GPT-3.5 Turbo. E questo anche dopo aver considerato possibili fattori di confusione, come il miglioramento della capacità dei nuovi modelli di capire se un testo è stato scritto da un umano.

Ma gli stessi autori ammettono che il loro metodo sperimentale non è infallibile e che OpenAI potrebbe aver raccolto gli estratti di libri a pagamento da utenti che li hanno copiati e incollati in ChatGPT. Inoltre, non hanno valutato i modelli più recenti di OpenAI, come GPT-4.5 e i modelli di “ragionamento” come o3-mini e o1. Quindi non è detto che questi modelli siano stati addestrati sui dati dei libri a pagamento di O’Reilly o che lo siano stati in misura minore rispetto a GPT-4o.

Tuttavia, non è un segreto che OpenAI sia da tempo alla ricerca di dati di addestramento di qualità. L’azienda si è spinta al punto di assumere giornalisti per affinare l’output dei suoi modelli.

Tra cause legali e polemiche, OpenAI non ci fa una bella figura

Va detto che OpenAI paga per alcuni dei suoi dati di addestramento. L’azienda ha accordi di licenza con editori di notizie, social network, librerie di media stock e altri. Offre anche meccanismi di opt-out, seppur imperfetti, che consentono ai titolari di copyright di segnalare i contenuti che preferirebbero non venissero utilizzati da OpenAI per l’addestramento.

Tuttavia, mentre OpenAI combatte diverse cause legali sulle sue pratiche di dati di addestramento e sul trattamento del diritto d’autore nei tribunali statunitensi, la ricerca di O’Reilly non le fa certo fare una bella figura.