Quel crawler che rastrella i domini .it

Si aggira da qualche giorno sulla rete italiana e il suo obiettivo è ambizioso: studiare come conservare la memoria del web nostrano. Dietro a questa iniziativa i tool di Internet Archive e la Biblioteca Nazionale di Firenze
Si aggira da qualche giorno sulla rete italiana e il suo obiettivo è ambizioso: studiare come conservare la memoria del web nostrano. Dietro a questa iniziativa i tool di Internet Archive e la Biblioteca Nazionale di Firenze

Roma – Sono molti i webmaster che in questi giorni stanno registrando nei propri log una nuova presenza, un crawler che raccoglie le pagine web dei domini.it e che si riconosce facilmente: si identifica infatti come proveniente dalla Biblioteca Nazionale Centrale di Firenze . Offre anche un link , che porta ad una pagina della Biblioteca che ne racconta in sintesi la natura.

“È una sperimentazione – spiega a Punto Informatico Giovanni Bergamin, responsabile dei Servizi Informatici dell’Istituto fiorentino – un progetto di ampio respiro che vede coinvolte diverse biblioteche centrali internazionali e che ha come partner di eccezione Internet Archive”. Come tutti sanno Internet Archive è un’organizzazione non profit americana che ormai da molti anni è impegnata a realizzare un ambiziosissimo archivio del Web , dove gli utenti Internet possano consultare pagine ormai non più esistenti. Per ricordare ciò che fu con il maggior numero possibile di dettagli. E il Consorzio, qui la home page, conta al suo interno alcuni dei più importanti istituti biblioteconomici del Mondo.

Il crawler è dunque una delle tecnologie di Internet Archive che, nella partnership con la biblioteca italiana, compie un’operazione di harvesting sui domini.it: va cioè a caccia degli spazi web relativi a quei domini per archiviarne le pagine e conservarle a futura memoria . “È evidente – incalza Bergamin – che in questa fase non si pensa a lavorare sull’intero spazio web italiano, visto che i domini che non sono.it, ma che possono essere di provenienza italiana, non sono contemplati”. Ma è un primo assaggio di ciò che si potrebbe fare per dare modo alle strutture di archiviazione nazionale di conservare la memoria di quel pezzo d’Italia che produce, scrive, crea su Internet e di cui, con il passare degli anni, spesso si perde memoria, senza vera possibilità di recupero.

“Di recente – racconta il responsabile fiorentino – leggevo un vecchio articolo del 1997, ancora pubblicato online. Dei molti link contenuti in quell’articolo la stragrande maggioranza non porta più a nulla”. Così scompaiono le risorse Internet, ed è a questo che si vuole dare una risposta.

Ci sarà una seconda fase in cui si analizzeranno gli strumenti utili a “catturare” le pagine italiane, ma per ora si opera per capire quale sforzo richieda un’impresa del genere , quali tool, quanto spazio. E i risultati potrebbero essere sorprendenti, con nuovi dati e statistiche sulla “forma” del web, dati che la Biblioteca renderà pubblici appena conclusa la sperimentazione, destinata a durare sei settimane e a chiudersi nel corso di giugno.

“Dal 2002 – ricorda Bergamin – lavoriamo con questi altri istituti all’individuazione delle tecnologie adatte. Per noi si tratta sostanzialmente dell’estensione delle regole sul deposito legale dei libri ma per ora siamo soltanto in una fase esplorativa”. Il riferimento è alla legge 106 del 2004 , uno strumento che soffre di una terminologia controversa che, se presa alla lettera, si tradurrebbe nell’obbligo dei tenutari di siti e newsletter di “depositarli”, non si sa bene come, presso le biblioteche nazionali centrali. Una misura che non appena approvata ha sollevato molta polvere ma che ha già subìto un sostanziale stop : in uno degli ultimi consigli dei ministri della passata legislatura è stato approvato il regolamento applicativo che, nei fatti, rimanda ad un altro futuro regolamento tutto ciò che riguarda Internet.

“Questa iniziativa – spiega Bergamin – si lascia alle spalle le polemiche e anzi vuole costruire un insieme di conoscenze su metodologie e tecnologie che consentano in futuro di varare un regolamento rispettoso delle esigenze della rete”. Richiedere infatti a webmaster e blogger di depositare le proprie pagine web, cioè di farle avere materialmente alle biblioteche nazionali magari con una certa periodicità, rappresenterebbe un fardello inutile, destinato ad impattare negativamente sullo sviluppo della rete se non persino sulle libertà individuali.

Il Consorzio e queste iniziative vengono considerate utili dagli addetti ai lavori anche per arrivare a forme di condivisione del lavoro tra istituti. “Siamo convinti della necessità di un harvesting più intelligente e condiviso dello spazio web – sottolinea Bergamin – Non sarebbe sostenibile se tutte le biblioteche avessero crawler ad hoc”. Il gran numero di crawler è per certi webmaster un vero problema, e molti li “regolano” con gli strumenti appositi , ma con un coordinamento tra biblioteche si può arrivare, questa almeno è la speranza, a compiere un’operazione per nulla invasiva eppure utile a garantire la memoria .

D’altra parte le tecnologie usate da Internet Archive, in particolare il crawler Heritrix , rispettano le esclusioni del protocollo robots.txt , che garantisce ai webmaster la possibilità di non essere contemplati nell’operazione di archiviazione. Ed è probabilmente questa la più grande differenza dell’impostazione che si sta perseguendo rispetto agli “obblighi” previsti dalla legge 106. Per il futuro si può ipotizzare la realizzazione di quello che Bergamin descrive come uno snapshot annuale del web , una “fotografia” di quanto è pubblicato. Un domani potrebbero esservi delle categorizzazioni dei contenuti, pensate per consentire un aggiornamento periodico più ravvicinato per siti e spazi web di particolare rilievo. “Ma ci tengo a precisare – spiega Bergamin – che da sempre l’istituzione bibliotecaria è orogliosa della natura neutra e non decide la rilevanza di questo o di quello”. E, allora, come procedere? Per ora si possono avanzare solo alcune ipotesi.

Si potrebbe, ad esempio, ricorrere ad un sistema di ranking simile a quello utilizzato dai più avanzati motori di ricerca, per determinare i siti preminenti, quelli che sono maggiormente linkati da altri siti, a loro volta più o meno rilevanti a seconda del proprio ranking.
E magari integrare a questo sezioni “specializzate” di crawling : per esempio dedicate a siti di interesse pubblico nati con fondi pubblici, o anche a siti che si aggiornano più frequentemente o ancora a siti di interesse territoriale. “Si tratta – spiega il responsabile dei sistemi della Biblioteca – di organizzare la memoria di questi siti per organizzare anche le procedure di ritorno del crawler su quelle pagine”.

E le prospettive che si aprono sono molte. “Quando si fa una ricerca o un paper scientifico – spiega Bergamin – si fanno delle citazioni, se le citazioni non ci sono o mancano la ricerca perde molto, se non tutto, del suo valore: qualcuno ha proposto che quando un ricercatore citi qualcosa che è in rete, possa far scattare dei meccanismi automatici , un “ping” del materiale citato e quindi l’archiviazione di quanto è citato”. Anche questo in sé potrebbe essere un altro criterio di rilevanza da introdurre in un futuro crawler.

Ma chi dovrà gestire tutto questo? Oggi le norme non ci sono ma la percezione negli ambienti del Consorzio internazionale è che debbano essere le strutture pubbliche a gestire le operazioni di crawling. “Internet Archive è semplicemente eccezionale – afferma a questo proposito Bergamin – ma come Google è una iniziativa privata. Se in ballo c’è la memoria del Web questo lavoro non potrà che avvenire in ambito pubblico”.

In tutto questo, un grosso punto di domanda naturalmente è quello relativo alla collaborazione dei webmaster. Fatta salva la possibilità di bloccare l’harvesting ove non sia desiderato, quello che si propone il Consorzio è in fondo anche di sensibilizzare chi la rete la crea, la vive e la rende viva. Il tempo dirà se riuscirà nell’impresa.

Link copiato negli appunti

Ti potrebbe interessare

10 05 2006
Link copiato negli appunti