Google Dataset Search: più dati per tutti

Google Dataset Search: più dati per tutti

Google Dataset Search è un motore di ricerca che mette in contatto chi cerca e chi offre dati conservati in dataset di difficile reperimento.
Google Dataset Search: più dati per tutti
Google Dataset Search è un motore di ricerca che mette in contatto chi cerca e chi offre dati conservati in dataset di difficile reperimento.

Google Dataset Search è un nuovo motore di ricerca made in Mountain View che in prospettiva potrebbe offrire opportunità mai viste prima per ricerche avanzate e specifiche utilità di alto livello. Il Dataset Search non restituisce infatti risultati basati sulla tradizionale indicizzazione del Web, ma parte da dataset predefiniti ed estremamente circostanziati per consentirne la reperibilità da parte di chi ne sia interessato.

Google Dataset Search

La funzione di Google, insomma, è quella di facilitare l’incontro tra la domanda e l’offerta di dati. Occorre considera un aspetto fondamentale in questa situazione: la domanda e l’offerta di dati sono entrambe molto elevate, ma spesso le condizioni sono tali per cui le parti rimangano separate senza la possibilità di incontrarsi. È il caso, ad esempio, dei ricercatori, che spesso abbisognano di nuovi dati la cui reperibilità è estremamente complessa ed onerosa quando invece da qualche parte qualcuno potrebbe aver già fatto medesimo lavoro mettendolo a disposizione come open data. Stesso discorso vale per i giornalisti, per i quali la lettura di dati aperti potrebbe offrire la possibilità di nuove analisi e maggior precisione narrativa.

In molti casi, le informazioni su questi set di dati non sono collegate né sono state indicizzate dai motori di ricerca, perciò la loro ricerca è complessa o, in alcuni casi, impossibile.

Google Dataset Search chiede semplicemente ai titolari di set di dati di offrire a Google i riferimenti per il reperimento dei dati (nonché informazioni relative a chi ne ha curata la raccolta, nonché le modalità della raccolta stessa: metadati fondamentali per validare la bontà del dataset e l’effettiva utilità per l’utente che sta compiendo la ricerca). Il motore consente la ricerca puntuale all’interno del dataset, ma consente soprattutto di scoprire il bacino di dati più congeniale per il raggiungimento delle proprie finalità. L’interfaccia (la classica del motore di ricerca su cui l’intera utenza del Web è ormai abituata a cercare) non fa altro che raccogliere la ricerca dell’utenza per fornire come risposta i riferimenti per il raggiungimento dei dati. Il dataset indicizzato non è dunque ospitato da Google (chissà che non possa diventare questo un secondo step del progetto), ma rimane laddove i dati sono stati originariamente caricati.

Se forniamo ai nostri utenti un’unica interfaccia che permette di eseguire ricerche su più repository, speriamo di trasformare il modo in cui i dati vengono pubblicati e utilizzati. Riteniamo inoltre che questo progetto avrà il vantaggio di a) creare un ecosistema di condivisione dei dati chi pubblica dati a seguire le nostre best practice per l’archiviazione e la pubblicazione dei dati e b) dare ai data scientist ciò che desiderano maggiormente, cioè un modo per mostrare l’impatto del loro lavoro attraverso la citazione dei set di dati che hanno prodotto.

Ricerca su Google Dataset Search

La convinzione da più parti è che l’entrata in campo di Google possa stimolare il rapido sviluppo delle informazioni messe a disposizione, così che i dati possano essere più facilmente trasformati in beni a disposizione di tutti. L’evoluzione degli Open Data estenderà gradualmente il bacino di set di dati teoricamente disponibili, dopodiché toccherà a Google rendere quanto più appetibile possibile la collaborazione di vari enti (anche istituzionali) con il motore di ricerca affinché chi abbisogna dei dati stessi non debba cercarseli manualmente o tramite contatti. Un motore di ricerca può infatti consentire scoperte puntuali o casuali, sempre e comunque grazie alla possibilità di far incontrare facilmente e istantaneamente parti altrimenti lontane.

Set di dati fornito da ProPublica

I set di dati sono un’energia potenziale che non si trasforma in vera energia fin quando un occhio umano non riconosce i dati e li combina in qualche modo per sfruttarli e creare valore. Google Dataset Search nasce a questo scopo e se adeguatamente nutrito di dati potrà offrire grosse opportunità. La partenza è in sordina, soprattutto in Italia, dove gli unici dataset disponibili sono poco aggiornati e poco appetibili. Ma è solo un inizio, un antipasto per far assaporare quel che il motore di ricerca potrebbe rappresentare.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il 6 set 2018
Link copiato negli appunti