Wikimedia Deutschland ha appena lanciato un nuovo progetto, si chiama Wikidata Embedding Project. L’idea è trasformare i dati di Wikipedia in un formato che le AI capiscono meglio. I dati diventano vettori semantici, una sorta di traduzione che aiuta i modelli a riconoscere significati e collegamenti tra le informazioni.
I modelli AI ora capiscono i dati di Wikipedia, come funziona
La ricerca semantica basata su vettori consente ai sistemi AI di interpretare le parole non solo come stringhe, ma come idee collegate tra loro. Ad esempio, cercando “scienziato”, il database non si limita a restituire nomi famosi, ma offre anche immagini, traduzioni, concetti correlati come “studioso” o “ricercatore”, e persino collegamenti a istituzioni. Un salto di qualità rispetto alle vecchie query SPARQL, che richiedevano competenze tecniche e restituivano risultati più rigidi.
Un progetto pensato per i modelli AI più avanzati
Il Wikidata Embedding Project è stato sviluppato in collaborazione con Jina.AI e DataStax, e supporta il Model Context Protocol (MCP), uno standard che facilita la comunicazione tra fonti di dati e modelli AI. Questo lo rende perfetto per i sistemi RAG (Retrieval-Augmented Generation), che integrano fonti esterne per generare risposte più accurate e contestualizzate. Avere accesso a dati verificati e strutturati è cruciale, anche perché i modelli AI sono sempre più sofisticati.
Un’alternativa aperta ai colossi dell’intelligenza artificiale
Philippe Saadé, responsabile del progetto, ha sottolineato l’indipendenza dell’iniziativa: Un’AI potente non deve essere controllata da pochi. Può essere aperta, collaborativa e costruita per servire tutti
. In un panorama dominato da big tech e dataset nebulosi, Wikidata si propone come fonte trasparente, accessibile e orientata ai fatti. Il database è già disponibile su Toolforge, e il 9 ottobre si terrà un webinar dedicato agli sviluppatori.
Dati di qualità: una risorsa sempre più preziosa
La corsa ai dataset affidabili è diventata centrale per l’industria AI. A differenza di raccolte generiche come Common Crawl, Wikipedia offre contenuti curati e verificati, fondamentali per applicazioni che richiedono precisione. E mentre alcuni laboratori AI affrontano cause miliardarie per l’uso improprio di materiale protetto, come Anthropic, che ha accettato di pagare 1,5 miliardi di dollari, Wikidata si propone come una soluzione legale, etica e scalabile.