WordPress.com e Tumblr dovrebbero sottoscrivere un accordo per la vendita dei dati degli utenti a OpenAI e Midjourney. In base ai documenti interni visti da 404 Media, la firma della casa madre Automattic sarebbe imminente. L’azienda californiana non ha fornito dettagli sull’argomento, ma ha promesso che bloccherà lo scraping senza autorizzazione.

C’è un opt-out, ma verrà rispettato?

Nei documenti è presente un post interno di Cyle Gage (product manager di Tumblr) con riferimenti all’elenco di tutti post pubblici tra il 2014 e il 2023, da inviare (o già inviati) a OpenAI e Midjourney, nel quale sono finiti anche post che non dovevano essere inclusi, tra cui post privati, post su blog sospesi o cancellati, post espliciti (NSFW) e contenuti dei blog di partner.

Gli ingegneri di Automattic avrebbero compilato una lista di post ID che non dovrebbero essere inclusi, così come i post protetti da password, i messaggi diretti e i media contrassegnati come CSAM. L’azienda californiana offrirà un’opzione di opt-out che consente agli utenti di escludere i contenuti dal dataset, ma un dipendente ha espresso un dubbio:

Abbiamo la garanzia che, se un utente rinuncia alla condivisione dei propri dati con terze parti, i nostri partner di dati esistenti verranno informati di tale modifica e rimuoveranno i propri dati?

Un dirigente ha risposto che Automattic chiederà la cancellazione dei dati già raccolti, ma non è certo che la richiesta verrà soddisfatta:

Credo che i partner onoreranno questo aspetto sulla base delle nostre conversazioni con loro fino a questo punto.

Dopo la pubblicazione dell’articolo da parte di 404 Media, Automattic ha annunciato che gli utenti di WordPress.com e Tumblr possono utilizzare l’opzione di opt-out per bloccare i crawler delle aziende IA. Verranno invece condivisi i post pubblici, se non è stato impostato l’opt-out.

L’azienda sottolinea però che, al momento, non esiste nessuna legge che impone il rispetto delle preferenze degli utenti. Quindi OpenAI potrebbe ugualmente raccogliere i dati da usare per l’addestramento dei suoi modelli IA. Non è inoltre chiaro se l’accordo si estende anche ai siti che usano il CMS WordPress e il plugin JetPack che li connette all’infrastruttura di Automattic.