Il Garante per la protezione dei dati personali ha pubblicato una serie di indicazioni che i siti (titolari del trattamento) dovrebbero seguire per impedire il cosiddetto web scraping da parte delle aziende che sviluppano i modelli di intelligenza artificiale generativa. I consigli valgono per i gestori dei siti che pubblicano i dati per rispettare determinati obblighi, ad esempio quello sulla trasparenza amministrativa.
Misure per prevenire la raccolta dei dati
Il Garante aveva avviato un’indagine conoscitiva il 22 novembre 2023 per verificare l’adozione di misure di sicurezza da parte di siti pubblici e privati che impediscono la raccolta massiva dei dati personali. Il 21 dicembre 2023 ha chiesto ai soggetti interessati di fornire osservazioni, commenti e proposte sulle misure adottabili dai gestori dei siti.
Considerando i contributi ricevuti, il Garante ha pubblicato alcune indicazioni sulle misure che i gestori dei siti, in qualità di titolari del trattamento, possono adottare per impedire o ostacolare il web scraping. Quest’ultima è la tecnica che consente di “rastrellare” Internet e creare i dataset usati per l’addestramento dei modelli di IA generativa. Le aziende sfruttano bot simili a quelli che Google o Microsoft utilizzano per indicizzare le pagine.
Il Garante consiglia quattro misure. La prima prevede la creazione di aree riservate, accessibili tramite registrazione, in cui sono presenti i dati degli utenti. In questo modo vengono nascosti ai bot. La seconda opzione è inserire clausole specifiche nei termini d’uso del servizio. Ciò non impedisce il web scraping, ma è un deterrente perché i gestori dei siti possono presentare una denuncia per violazione contrattuale.
Il Garante suggerisce inoltre di implementare il monitoraggio del traffico di rete (richieste HTTP) per rilevare flussi anomali di dati in ingresso e in uscita. È possibile anche bloccare il traffico proveniente da specifici indirizzi IP (in alcuni casi l’attività di web scraping è simile ad un attacco DDoS).
Infine, i gestori dei siti possono limitare l’accesso ai bot tramite aggiunta di CAPTCHA, modifica del markup HTML, incorporazione del testo nelle immagini, blocco di user agent indesiderati e modifica del file robots.txt
. In quest’ultimo deve essere inserito un disallow
per i bot, ma la soluzione non è molto efficace perché poche aziende comunicano il nome del bot (ad esempio, GPTBot di OpenAI per GPT o Google-Extended di Google per Gemini).