OpenAI: cos'è il crawler GPTBot e come bloccarlo

OpenAI: cos'è il crawler GPTBot e come bloccarlo

Come funziona il crawler GPTBot presentato da OpenAI e come è possibile impedire il suo accesso ai contenuti delle proprie pagine Web.
OpenAI: cos'è il crawler GPTBot e come bloccarlo
Come funziona il crawler GPTBot presentato da OpenAI e come è possibile impedire il suo accesso ai contenuti delle proprie pagine Web.

I modelli IA come quelli linguistici della famiglia GPT, alla base di ChatGPT e di altri servizi, sono stati istruiti da OpenAI anche e sopratutto sulla base delle informazioni raccolte online tramite scraping: oggi l’organizzazione spiega il funzionamento di GPTBot, un crawler messo a punto proprio a tale scopo. I gestori dei siti hanno modo di escludere le loro pagine dall’azione dell’agente, attraverso il file robots.txt.

GPTBot è il crawler di OpenAI per i modelli GPT

All’interno della documentazione ufficiale si legge che Le pagine Web sottoposte a scansione con l’agente GPTBot potrebbero potenzialmente essere utilizzate per migliorare i modelli futuri e sono filtrate per rimuovere le fonti che richiedono un accesso con paywall, quelle che contengono informazioni di identificazione personale o con testo in violazione delle nostre policy. L’involontaria capacità di aggirare i paywall è ciò che, a inizio luglio, ha portato al blocco della funzionalità Browser with Bing di ChatGPT.

Permettendo l’accesso alle proprie risorse, si tende una mano a OpenAI, consentendo di analizzarle ed eventualmente di includerle nel processo di addestramento dei modelli GPTConsentire a GPTBot l’accesso al tuo sito può aiutare a rendere i modelli IA più accurati e a migliorare le loro abilità generali e la sicurezza.

Come scritto in apertura, l’operazione può essere impedita semplicemente includendo quanto segue nel file robots.txt.

User-agent: GPTBot
Disallow: /

Allo stesso modo, può essere configurato un accesso selettivo alle directory.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Le richieste di GPTBot ai siti Web sono generate da indirizzi IP specifici, riportati in un elenco ospitato dal sito di OpenAI.

La domanda che molti si porranno, più che legittima, è: perché mai converrebbe consentire al crawler l’accesso alle proprie risorse? Dopotutto, i servizi come ChatGPT che impiegano i modelli istruiti, non veicolano traffico (a differenza, ad esempio, dei motori di ricerca) né citano la fonte delle informazioni fornite agli utenti. Dovranno prima o poi essere considerate anche le richieste di chi avanza pretese sulla monetizzazione dell’attività di OpenAI costruita sulla base delle proprie informazioni.

Fonte: OpenAI
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
8 ago 2023
Link copiato negli appunti