Perplexity usa nuove tecniche per rubare i contenuti

Perplexity usa nuove tecniche per rubare i contenuti

Cloudflare ha rilevato che Perplexity usa vari trucchi per aggirare il blocco dei suoi bot ed effettuare lo scraping dei contenuti dei siti web.
Perplexity usa nuove tecniche per rubare i contenuti
Cloudflare ha rilevato che Perplexity usa vari trucchi per aggirare il blocco dei suoi bot ed effettuare lo scraping dei contenuti dei siti web.

Perplexity continua ad utilizzare i contenuti dei siti web senza autorizzazione. La startup di san Francisco ha già ricevuto lettere di diffida da Condé Nast, New York Times e BBC. News Corp ha invece avviato un’azione legale. Cloudflare ha scoperto che Perplexity utilizza varie tecniche per nascondere le attività di scraping.

Crawler in modalità stealth

Cloudflare sottolinea che i crawler dovrebbero essere trasparenti, ovvero servire per uno scopo preciso e soprattutto rispettare le preferenze o direttive dei siti web. L’azienda di San Francisco ha scoperto che Perplexity non rispetta nessuna regola, quindi i suoi bot verranno eliminati dall’elenco di quelli verificati e bloccato.

Cloudflare ha ricevuto diverse segnalazioni dai clienti che avevano bloccato i crawler Perplexity-Bot e Perplexity-User nel file robots.txt e tramite specifiche regole del Web Application Firewall. Nonostante ciò, i bot di Perplexity potevano ancora accedere ai contenuti.

Per verificare le attività di scraping sono stati acquistati due domini e aggiunto il blocco per qualsiasi bot nel file robots.txt. Quando Cloudflare ha chiesto informazioni sui domini, il chatbot di Perplexity ha fornito tutti i dettagli sui contenuti. La startup californiana sfrutta vari trucchi per aggirare il blocco.

Il primo prevede l’uso di due crawler con diversi user-agent. Uno di essi è visibile, mentre l’altro è nascosto (stealth) e impersona Chrome per macOS. Entrambi i crawler effettuano lo scraping. Quello invisibile si attiva quando l’altro viene bloccato.

Il crawler stealth utilizza inoltre un intervallo di indirizzi IP diversi da quelli pubblicati sul sito di Perplexity. Quando Cloudflare ha aggiornato il file robots.txt sono stati cambiati gli indirizzi IP per aggirare il blocco. Altri provider, tra cui OpenAI, rispettano invece le preferenze dei siti web.

Un portavoce di Perplexity ha dichiarato che il bot indicato non è della startup californiana. Cloudflare ha recentemente annunciato nuovi tool per bloccare i bot e il servizio Pay per Crawl.

Fonte: Cloudflare
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
4 ago 2025
Link copiato negli appunti