Durante la conferenza SXSW di Austin, la CEO Jay Graber ha annunciato che Bluesky chiederà agli utenti se vogliono consentire l’uso dei dati personali per l’intelligenza artificiale generativa. L’azienda di Seattle aveva comunicato che non userà mai i post degli utenti per l’addestramento dei modelli AI.

Consenso a livello di account o post

È noto che tutti i modelli di intelligenza artificiale generativa vengono addestrati con dati pubblici trovati su Internet (in alcuni casi anche con dati protetti dal diritti d’autore). A metà novembre 2024, Bluesky aveva confermato che i contenuti degli utenti non verranno mai utilizzati per l’addestramento.

Il social network è pubblico per definizione (non esistono account privati), quindi qualsiasi tool di scraping può creare un database di post. Uno sviluppatore aveva usato le API di Bluesky per “rubare” un milione di post. L’azienda di Seattle ha spiegato che potrebbe bloccare l’accesso tramite Robots Exclusion Protocol (file robots.txt), ma il protocollo non è efficace perché non c’è l’obbligo di rispettarlo.

In quell’occasione, Bluesky aveva comunicato che valuterà soluzioni alternative per impedire lo scraping. Jay Graber ha dichiarato che sono in corso discussioni con i partner sull’argomento. È previsto lo sviluppo di un framework per il consenso degli utenti. È un sistema simile al Robots Exclusion Protocol, ma le aziende dovranno rispettare la scelta dell’utente.

La proposta è stata pubblicata su GitHub. Prevede un consenso per l’uso dei dati a livello di account o post. Tramite un’impostazione sarà possibile comunicare a terzi se i contenuti pubblici possono essere utilizzati per l’addestramento dei modelli AI.