Wikipedia ha sferrato un colpo agli sviluppatori di AI abituati a fare scraping dalla piattaforma. La sua arma segreta? Un dataset ottimizzato appositamente per l’addestramento dei modelli AI. Niente più scuse per saccheggiare il sito: ora i dati sono serviti su un piatto d’argento.

Wikipedia dice basta allo scraping non autorizzato: arriva il dataset ottimizzato per l’AI

Invece di raccogliere in modo non autorizzato grandi quantità di contenuti dal sito, ora gli sviluppatori hanno a disposizione un pacchetto di dati pulito, facilmente utilizzabile. Una mossa strategica per proteggere i server di Wikipedia e al tempo stesso offrire un’alternativa legale ed efficiente.

Per lanciare questa iniziativa, la Wikimedia Foundation si è alleata con un peso massimo: Kaggle. Questa community di data science, di proprietà di Google, è il punto di riferimento per chiunque voglia accedere a dati per il machine learning. E ora, tra i suoi “tesori”, spicca un dataset beta di contenuti strutturati di Wikipedia in inglese e francese.

Il nuovo dataset di Wikipedia pubblicato su Kaggle non è una semplice raccolta grezza di articoli. Ogni elemento – dai riassunti delle voci enciclopediche alle descrizioni brevi, dai link alle immagini ai dati strutturati delle infobox, fino alle singole sezioni degli articoli – è organizzato in formato JSON, quindi facilmente leggibile e pronto per essere analizzato, processato e usato per addestrare modelli AI. E il bello? È tutto sotto licenza aperta.

Gli scraper non hanno più scuse

Con questo dataset, Wikimedia manda un messaggio chiaro agli sviluppatori AI: non avete più scuse per “raschiare” il testo grezzo degli articoli. I bot automatizzati che consumano banda senza sosta stanno mettendo a dura prova i server di Wikipedia. Ora, con una fonte di dati strutturati a portata di mano, questa pratica non ha più senso.

Wikipedia ha già accordi di condivisione dei contenuti con Google e Internet Archive. Ma il dataset su Kaggle rende questi dati accessibili anche alle piccole aziende e ai data scientist indipendenti.