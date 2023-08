I modelli IA come quelli linguistici della famiglia GPT, alla base di ChatGPT e di altri servizi, sono stati istruiti da OpenAI anche e sopratutto sulla base delle informazioni raccolte online tramite scraping: oggi l’organizzazione spiega il funzionamento di GPTBot, un crawler messo a punto proprio a tale scopo. I gestori dei siti hanno modo di escludere le loro pagine dall’azione dell’agente, attraverso il file robots.txt .

GPTBot è il crawler di OpenAI per i modelli GPT

All’interno della documentazione ufficiale si legge che Le pagine Web sottoposte a scansione con l’agente GPTBot potrebbero potenzialmente essere utilizzate per migliorare i modelli futuri e sono filtrate per rimuovere le fonti che richiedono un accesso con paywall, quelle che contengono informazioni di identificazione personale o con testo in violazione delle nostre policy . L’involontaria capacità di aggirare i paywall è ciò che, a inizio luglio, ha portato al blocco della funzionalità Browser with Bing di ChatGPT.

Permettendo l’accesso alle proprie risorse, si tende una mano a OpenAI, consentendo di analizzarle ed eventualmente di includerle nel processo di addestramento dei modelli GPT: Consentire a GPTBot l’accesso al tuo sito può aiutare a rendere i modelli IA più accurati e a migliorare le loro abilità generali e la sicurezza .

Come scritto in apertura, l’operazione può essere impedita semplicemente includendo quanto segue nel file robots.txt .

User-agent: GPTBot

Disallow: /

Allo stesso modo, può essere configurato un accesso selettivo alle directory.

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

Le richieste di GPTBot ai siti Web sono generate da indirizzi IP specifici, riportati in un elenco ospitato dal sito di OpenAI.

La domanda che molti si porranno, più che legittima, è: perché mai converrebbe consentire al crawler l’accesso alle proprie risorse? Dopotutto, i servizi come ChatGPT che impiegano i modelli istruiti, non veicolano traffico (a differenza, ad esempio, dei motori di ricerca) né citano la fonte delle informazioni fornite agli utenti. Dovranno prima o poi essere considerate anche le richieste di chi avanza pretese sulla monetizzazione dell’attività di OpenAI costruita sulla base delle proprie informazioni.