Wikipedia, l’enciclopedia online che ha passato vent’anni a chiedere donazioni da 3 euro agli utenti con banner sempre più disperati, ha deciso che è ora di far pagare qualcun altro. Non gli utenti, ma i giganti dell’AI che usano i suoi contenuti per addestrare i loro modelli. Quelli sì, devono mettere mano al portafoglio. Perché mentre Wikipedia resta gratis per gli esseri umani, le aziende che la sfruttano per costruire chatbot miliardari dovrebbero contribuire invece di vivere sulla spalle dei donatori.

Le aziende che addestrano i modelli AI con i contenuti di Wikipedia devono pagare

La fondazione Wikimedia ha già un accordo con Google dal 2022, e secondo Reuters sta lavorando a trattative simili con altri grandi player della tecnologia. Del resto, se usano Wikipedia per addestrare la loro AI, dovrebbero pagare per quel privilegio. Soprattutto quando quei bot stanno riducendo il traffico umano verso Wikipedia stessa, creando un paradosso dove l’enciclopedia alimenta i modelli AI che poi la cannibalizzano.

Jimmy Wales, cofondatore di Wikipedia, spiega il problema in termini molto concreti. I robot che scansionano continuamente gli articoli per addestrare i modelli linguistici costringono la fondazione a usare più server, più RAM, più memoria cache. È un carico computazionale che genera costi sproporzionati.

L’accesso è continuo, intensivo. Un essere umano che legge un articolo su Wikipedia genera traffico trascurabile. Un bot che scansiona milioni di articoli ripetutamente per addestrare un LLM è un’altra storia. Richiede una certa infrastruttura, e qualcuno deve pagare per quella infrastruttura.

Finora, quel qualcuno sono stati i donatori. Le persone normali che contribuiscono con 3, 5, 10 euro pensando di sostenere la missione di Wikipedia, la conoscenza libera e accessibile per tutti. Ma in realtà, parte di quei soldi sta sovvenzionando OpenAI, Anthropic, Perplexity, e tutti gli altri che usano Wikipedia come addestramento gratuito mentre costruiscono prodotti commerciali da miliardi di dollari. È un’ingiustizia che Wales vuole correggere.

Ma c’è un secondo problema, forse più insidioso. L’arrivo di chatbot e motori di ricerca AI ha causato un calo del traffico umano su Wikipedia. Perché quando si fa una domanda a ChatGPT o Perplexity, questi danno una risposta diretta invece di indirizzare verso l’articolo Wikipedia da cui hanno appreso quelle informazioni. È un meccanismo perverso.

L’accordo con Big G

L’accordo con Google del 2022 dimostra che almeno un colosso tecnologico ha riconosciuto la necessità di compensare Wikipedia per l’utilizzo dei suoi contenuti. I dettagli economici restano riservati, ma l’esistenza stessa dell’accordo conta. Stabilisce un precedente: Wikipedia non è solo un bene comune da cui tutti possono attingere gratis per scopi commerciali.

Ora Wikipedia sta lavorando per estendere questo modello ad altri player, ed è giusto così. Se OpenAI addestra GPT su Wikipedia, dovrebbe pagare. Se Anthropic usa Wikipedia per Claude, dovrebbe pagare. Se qualsiasi azienda che costruisce prodotti AI commerciali si basa su contenuti Wikipedia, dovrebbe contribuire.

Se Wikipedia riesce a stabilire questo modello, potrebbe aprire la strada ad altri. Perché Wikipedia non è l’unico sito che fornisce dati di addestramento ai sistemi AI. Reddit, Stack Overflow, siti di notizie, blog, forum, tutti contribuiscono alla conoscenza che alimenta i modelli linguistici.