Common Corpus, il corpus senza copyright per addestrare gli LLM

Aggiungi Punto Informatico come Fonte preferita su Google

L’addestramento di modelli linguistici di grandi dimensioni e di modelli generativi di intelligenza artificiale richiede l’utilizzo di vasti corpus di testi o immagini. Questo aspetto è al centro del recente accordo tra Le Monde e OpenAI, così come della disputa tra OpenAI e il New York Times, riguardante l’accesso ai contenuti che possono essere utilizzati per addestrare i modelli.

Il progetto Common Corpus: una soluzione ai problemi di copyright

In questo contesto si inserisce il progetto Common Corpus, guidato da Pierre Carl Langlais e dalla sua start-up Pleias. Langlais, proveniente dal mondo della ricerca e specializzato in scienze dell’informazione e della comunicazione, aveva già affrontato in passato il tema dei documenti royalty-free, ad esempio nel progetto Numapresse, volto alla digitalizzazione dei giornali francesi del XIX secolo per analizzarne il contenuto. Secondo il ricercatore, è impossibile separare l’AI dai dati utilizzati per addestrarla, poiché questi dati rappresentano la cultura stessa.

Pubblicato sulla piattaforma HuggingFace, il Common Corpus contiene un volume di 500 miliardi di parole in diverse lingue, tutte garantite libere da copyright. Questo corpus multilingue include circa 200 miliardi di parole in inglese, 100 miliardi in francese, 30 miliardi in tedesco, circa 20 miliardi in olandese e altre lingue. Il corpus è composto principalmente da testi antichi, selezionati e scelti dagli iniziatori del progetto per limitare il più possibile il rischio di violazione del copyright, evitando ad esempio l’uso di testi pubblicati dopo il 1884.

Un progetto condiviso e aperto alla collaborazione

L’obiettivo del Common Corpus non è solo quello di evitare problemi legali legati al riutilizzo di testi coperti da copyright, ma anche di migliorare il controllo sulla produzione dei modelli. Spesso, i modelli addestrati su dati pubblicati sul web sono esposti a contenuti di odio o pornografici, rendendo necessari controlli a posteriori sui testi generati. Secondo Langlais, se non è possibile risalire all’origine dei dati utilizzati per guidare il modello, diventa ancora più difficile controllare ciò che i modelli genereranno.

Il progetto Common Corpus è destinato a diventare una risorsa condivisa e liberamente accessibile, con l’obiettivo di consentire l’emergere di attori alternativi che potranno utilizzare il corpus per addestrare i propri modelli linguistici. Pierre Carl Langlais invita altre organizzazioni e persone interessate all’approccio a contribuire all’arricchimento del corpus, collaborando con realtà come HuggingFace, Eleuther, Occiglot e NomicAI, che condividono valori simili.

Verso un futuro di trasparenza e accessibilità nell’AI

Il progetto Common Corpus rappresenta un passo importante verso una maggiore trasparenza e accessibilità nel campo dell’AI, consentendo a un più ampio ventaglio di attori di sviluppare modelli linguistici di alta qualità senza incorrere in problemi di copyright. Questa iniziativa getta le basi per una collaborazione più ampia tra ricercatori, start-up e organizzazioni interessate a promuovere un approccio etico e condiviso allo sviluppo dell’intelligenza artificiale, mettendo al centro l’importanza dei dati utilizzati per addestrare i modelli.

Tiziana Foglio

Pubblicato il 22 mar 2024