Patronus AI svela le violazioni di copyright

Aggiungi Punto Informatico come Fonte preferita su Google

Patronus AI, azienda fondata da ex ricercatori di Meta, ha sviluppato un tool che permette di rilevare la percentuale di contenuti protetti dal diritto d’autore generati da quattro modelli IA. I risultati di CopyrightCatcher dimostrano che GPT-4 è il peggiore per quanto riguarda la violazione del copyright.

OpenAI “ruba” più di tutti

I modelli di intelligenza artificiale generativa sono addestrati con dati pubblici “rastrellati” (da cui il termine scraping) su Internet. Spesso sono inclusi anche contenuti protetti dal diritto d’autore. I chatbot, come ChatGPT, dovrebbero evitare la riproduzione esatta o quasi di tali contenuti in risposta ai prompt degli utenti.

OpenAI, Microsoft e Anthropic hanno già ricevuto numerose denunce da scrittori, case discografiche e editori, tra cui il New York Times, per aver utilizzato i dati senza autorizzazione. Patronus AI ha creato CopyrightCatcher per rilevare se i modelli IA generano l’esatta riproduzione di contenuti protetti dal copyright.

In dettaglio sono stati testati i modelli GPT-4 (OpenAI), Mixtral-8x7B (Mistral AI), Claude 2.1 (Anthropic) e Llama 2-70B (Meta) con 100 prompt relativi a libri protetti dal diritto d’autore negli Stati Uniti. È stato chiesto ai modelli di scrivere il primo passaggio di un libro e di completare il testo a partire da un estratto.

GPT-4 è il modello che ha violato più spesso il copyright (43% in media), seguito da Mixtral-8x7B (22%), Llama 2-70B (10%) e Claude 2.1 (8%). In alcuni casi è possibile però aggirare i filtri. Claude 2.1 non risponde quando viene chiesto il primo passaggio di un libro, ma completa il testo nel 56% dei casi se non viene indicato il nome del libro.

Una demo pubblica di CopyrightCatcher è disponibile qui per testare i modelli open source di Mixtral e Meta.

Luca Colantuoni

Pubblicato il 10 mar 2024