Reddit fa causa a Perplexity: rubati contenuti per addestrare l'AI

Reddit fa causa a Perplexity: rubati contenuti per addestrare l'AI

Reddit denuncia Perplexity per aver ignorato i file robots.txt e utilizzato crawler invisibili per rubare contenuti protetti da copyright.
Reddit fa causa a Perplexity: rubati contenuti per addestrare l'AI
Reddit denuncia Perplexity per aver ignorato i file robots.txt e utilizzato crawler invisibili per rubare contenuti protetti da copyright.

Reddit è stufa. Stufa di vedere i suoi contenuti, quelli generati da milioni di utenti che passano ore a discutere di tutto, finire gratuitamente nelle fauci affamate dei modelli di intelligenza artificiale. E questa volta ha deciso di tirare fuori gli artigli contro Perplexity, che secondo Reddit si comporta come un hacker nordcoreano. Sì, Reddit ha paragonato Perplexity a un cybercriminale che lavora da un bunker sotterraneo a Pyongyang.

La denuncia presentata al Distretto Meridionale di New York non usa mezzi termini, Perplexity avrebbe orchestrato uno schema “su scala industriale” per raccogliere illegalmente i contenuti di Reddit, collaborando con tre aziende di data scraping: Oxylabs UAB, AWMProxy e SerpApi.

Il modus operandi? Aggirare le protezioni anti-scraping di Reddit passando dalla porta sul retro. In alcuni casi, queste aziende rubavano i contenuti di Reddit direttamente dalle pagine dei risultati di ricerca di Google. Reddit sostiene che questi contenuti rubati, conversazioni protette da copyright, commenti, discussioni, vengono poi usati per addestrare e alimentare i prodotti di intelligenza artificiale di Perplexity.

Nella causa, Reddit non si limita ad accusare Perplexity di furto. Ci va giù pesante anche sulla tecnologia dell’azienda, definendola nulla di rivoluzionario. Il motore di risposta di Perplexity, secondo Reddit, si basa sul “retrieval-augmented generation” (RAG), una tecnologia che sostanzialmente prende dati raccolti qua e là e li elabora usando il modello linguistico di un’altra azienda. In sostanza, Perplexity ruba i contenuti di Reddit dai risultati di Google, li butta dentro l’LLM di qualcun altro tipo OpenAI o Anthropic, e ci fanno miliardi di dollari sopra.

La promessa infranta e la trappola geniale di Reddit

La storia si fa ancora più piccante quando si scopre che Reddit aveva già inviato una lettera di diffida a Perplexity a maggio 2024. Perplexity, all’epoca, aveva promesso solennemente di rispettare il file robots.txt di Reddit. Ma stranamente, il volume delle citazioni dalla piattaforma Reddit su Perplexity è aumentato di quaranta volte…

Per smascherare Perplexity Reddit gli ha teso una trappola. L’azienda ha creato un post di prova unico, individuabile solo dal crawler di ricerca di Google e inaccessibile altrove online. Una sorta di cavallo di Troia, per testare se Perplexity stava davvero rubando contenuti attraverso i risultati di Google. Nel giro di poche ore il contenuto di quel post nascosto è apparso nei risultati di ricerca di Perplexity. Scacco matto.

Reddit non è nuova a questo tipo di battaglie legali. A giugno aveva già fatto causa ad Anthropic, il creatore di Claude, per scraping non autorizzato. Anthropic, secondo Reddit, era un’azienda con due facce che pubblicamente sosteneva un’AI responsabile, mentre privatamente scaricava dati come un aspirapolvere impazzito.

E non è solo Reddit ad avere problemi con Perplexity. Ad agosto, Cloudflare aveva presentato una denuncia simile, affermando che Perplexity ignorava i file robots.txt e usava crawler invisibili per aggirare le regole del Web Application Firewall (WAF). Quando i clienti cercavano di bloccare i crawler noti di Perplexity, PerplexityBot e Perplexity-User, l’azienda semplicemente ne usava altri, nascosti, come un camaleonte che cambia colore per non farsi beccare.

La battaglia per il controllo dei dati

Al centro di tutto questo c’è una domanda fondamentale: a chi appartengono i dati generati dagli utenti su piattaforme come Reddit? L’azienda sostiene che sono suoi, protetti da copyright. Le società di AI come Perplexity sembrano pensare che siano liberamente disponibili per chiunque abbia un crawler abbastanza sofisticato.

Reddit chiede al tribunale di bloccare Perplexity, oltre a un risarcimento per i danni e la restituzione di eventuali guadagni illeciti. Vuole indietro i soldi che Perplexity ha fatto usando contenuti che non le appartenevano. Aziende come OpenAI e Google hanno pagato Reddit per accedere ai suoi dati. Perplexity, invece, ha deciso di fare il furbetto e va punito. La causa è appena iniziata, e ci vorranno mesi o anni prima di una risoluzione.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
23 ott 2025
Link copiato negli appunti