Reddit ha denunciato Perplexity per aver addestrato i suoi modelli di intelligenza artificiale con i post pubblicati sulla piattaforma. L’azienda guidata da Aravind Srinivas ha prontamente respinto le accuse con un post su Reddit, affermando che non ha mai usato i contenuti.
Denuncia per forzare un accordo di licenza
Lo scontro tra i due vicini di casa (entrambe le aziende sono a San Francisco) è iniziato oltre un anno fa (maggio 2024), quando Reddit ha chiesto a Perplexity di interrompere la raccolta dei dati (scraping). Perplexity aveva dichiarato che rispetta il file robots.txt (Robots Exclusion Protocol), ma Reddit ha trovato un numero crescente di citazioni nelle risposte del motore di ricerca AI di Perplexity.
L’azienda guidata da Aravind Srinivas avrebbe incluso nel suo “answer engine” le SERP di Google con l’aiuto di almeno un provider terzo (SerpApi, Oxylabs o AWMProxy). La risposta ufficiale di Perplexity, arrivata proprio tramite Reddit, inizia con queste parole:
Questo è un triste esempio di cosa succede quando i dati pubblici diventano una parte importante del modello di business di un’azienda quotata in borsa. La vendita dell’accesso ai dati di training è una fonte di entrate sempre più importante per Reddit, soprattutto ora che i creatori di modelli stanno riducendo gli accordi con Reddit o abbandonando completamente il servizio.
Perplexity sottolinea che non ha mai utilizzato i dati di Reddit per addestrare i modelli. Il suo motore di ricerca AI genera solo un riassunto delle discussioni e inserisce il link (citazione) al relativo thread. Per questi motivi non sottoscriverà mai un accordo di licenza (paragonato ad un’estorsione), come hanno fatto Google e OpenAI.
Reddit ha denunciato Anthropic all’inizio di giugno per l’accesso non autorizzato alla piattaforma. Cloudflare ha descritto il modo in cui Perplexity nasconde le attività di scraping. La startup ha risposto affermando che l’analisi è sbagliata e che si tratta di una trovata pubblicitaria da ciarlatani.