OpenAI: cos'è il crawler GPTBot e come bloccarlo

Aggiungi Punto Informatico come Fonte preferita su Google

I modelli IA come quelli linguistici della famiglia GPT, alla base di ChatGPT e di altri servizi, sono stati istruiti da OpenAI anche e sopratutto sulla base delle informazioni raccolte online tramite scraping: oggi l’organizzazione spiega il funzionamento di GPTBot, un crawler messo a punto proprio a tale scopo. I gestori dei siti hanno modo di escludere le loro pagine dall’azione dell’agente, attraverso il file robots.txt.

GPTBot è il crawler di OpenAI per i modelli GPT

All’interno della documentazione ufficiale si legge che Le pagine Web sottoposte a scansione con l’agente GPTBot potrebbero potenzialmente essere utilizzate per migliorare i modelli futuri e sono filtrate per rimuovere le fonti che richiedono un accesso con paywall, quelle che contengono informazioni di identificazione personale o con testo in violazione delle nostre policy. L’involontaria capacità di aggirare i paywall è ciò che, a inizio luglio, ha portato al blocco della funzionalità Browser with Bing di ChatGPT.

Permettendo l’accesso alle proprie risorse, si tende una mano a OpenAI, consentendo di analizzarle ed eventualmente di includerle nel processo di addestramento dei modelli GPT: Consentire a GPTBot l’accesso al tuo sito può aiutare a rendere i modelli IA più accurati e a migliorare le loro abilità generali e la sicurezza.

Come scritto in apertura, l’operazione può essere impedita semplicemente includendo quanto segue nel file robots.txt.

User-agent: GPTBot Disallow: /

Allo stesso modo, può essere configurato un accesso selettivo alle directory.

User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/

Le richieste di GPTBot ai siti Web sono generate da indirizzi IP specifici, riportati in un elenco ospitato dal sito di OpenAI.

La domanda che molti si porranno, più che legittima, è: perché mai converrebbe consentire al crawler l’accesso alle proprie risorse? Dopotutto, i servizi come ChatGPT che impiegano i modelli istruiti, non veicolano traffico (a differenza, ad esempio, dei motori di ricerca) né citano la fonte delle informazioni fornite agli utenti. Dovranno prima o poi essere considerate anche le richieste di chi avanza pretese sulla monetizzazione dell’attività di OpenAI costruita sulla base delle proprie informazioni.

Fonte: OpenAI

Cristiano Ghidotti

Pubblicato il 8 ago 2023