Quel crawler che rastrella i domini .it

Si aggira da qualche giorno sulla rete italiana e il suo obiettivo è ambizioso: studiare come conservare la memoria del web nostrano. Dietro a questa iniziativa i tool di Internet Archive e la Biblioteca Nazionale di Firenze

Roma – Sono molti i webmaster che in questi giorni stanno registrando nei propri log una nuova presenza, un crawler che raccoglie le pagine web dei domini.it e che si riconosce facilmente: si identifica infatti come proveniente dalla Biblioteca Nazionale Centrale di Firenze . Offre anche un link , che porta ad una pagina della Biblioteca che ne racconta in sintesi la natura.

“È una sperimentazione – spiega a Punto Informatico Giovanni Bergamin, responsabile dei Servizi Informatici dell’Istituto fiorentino – un progetto di ampio respiro che vede coinvolte diverse biblioteche centrali internazionali e che ha come partner di eccezione Internet Archive”. Come tutti sanno Internet Archive è un’organizzazione non profit americana che ormai da molti anni è impegnata a realizzare un ambiziosissimo archivio del Web , dove gli utenti Internet possano consultare pagine ormai non più esistenti. Per ricordare ciò che fu con il maggior numero possibile di dettagli. E il Consorzio, qui la home page, conta al suo interno alcuni dei più importanti istituti biblioteconomici del Mondo.

Il crawler è dunque una delle tecnologie di Internet Archive che, nella partnership con la biblioteca italiana, compie un’operazione di harvesting sui domini.it: va cioè a caccia degli spazi web relativi a quei domini per archiviarne le pagine e conservarle a futura memoria . “È evidente – incalza Bergamin – che in questa fase non si pensa a lavorare sull’intero spazio web italiano, visto che i domini che non sono.it, ma che possono essere di provenienza italiana, non sono contemplati”. Ma è un primo assaggio di ciò che si potrebbe fare per dare modo alle strutture di archiviazione nazionale di conservare la memoria di quel pezzo d’Italia che produce, scrive, crea su Internet e di cui, con il passare degli anni, spesso si perde memoria, senza vera possibilità di recupero.

“Di recente – racconta il responsabile fiorentino – leggevo un vecchio articolo del 1997, ancora pubblicato online. Dei molti link contenuti in quell’articolo la stragrande maggioranza non porta più a nulla”. Così scompaiono le risorse Internet, ed è a questo che si vuole dare una risposta.

Ci sarà una seconda fase in cui si analizzeranno gli strumenti utili a “catturare” le pagine italiane, ma per ora si opera per capire quale sforzo richieda un’impresa del genere , quali tool, quanto spazio. E i risultati potrebbero essere sorprendenti, con nuovi dati e statistiche sulla “forma” del web, dati che la Biblioteca renderà pubblici appena conclusa la sperimentazione, destinata a durare sei settimane e a chiudersi nel corso di giugno.

“Dal 2002 – ricorda Bergamin – lavoriamo con questi altri istituti all’individuazione delle tecnologie adatte. Per noi si tratta sostanzialmente dell’estensione delle regole sul deposito legale dei libri ma per ora siamo soltanto in una fase esplorativa”. Il riferimento è alla legge 106 del 2004 , uno strumento che soffre di una terminologia controversa che, se presa alla lettera, si tradurrebbe nell’obbligo dei tenutari di siti e newsletter di “depositarli”, non si sa bene come, presso le biblioteche nazionali centrali. Una misura che non appena approvata ha sollevato molta polvere ma che ha già subìto un sostanziale stop : in uno degli ultimi consigli dei ministri della passata legislatura è stato approvato il regolamento applicativo che, nei fatti, rimanda ad un altro futuro regolamento tutto ciò che riguarda Internet.

“Questa iniziativa – spiega Bergamin – si lascia alle spalle le polemiche e anzi vuole costruire un insieme di conoscenze su metodologie e tecnologie che consentano in futuro di varare un regolamento rispettoso delle esigenze della rete”. Richiedere infatti a webmaster e blogger di depositare le proprie pagine web, cioè di farle avere materialmente alle biblioteche nazionali magari con una certa periodicità, rappresenterebbe un fardello inutile, destinato ad impattare negativamente sullo sviluppo della rete se non persino sulle libertà individuali.

Il Consorzio e queste iniziative vengono considerate utili dagli addetti ai lavori anche per arrivare a forme di condivisione del lavoro tra istituti. “Siamo convinti della necessità di un harvesting più intelligente e condiviso dello spazio web – sottolinea Bergamin – Non sarebbe sostenibile se tutte le biblioteche avessero crawler ad hoc”. Il gran numero di crawler è per certi webmaster un vero problema, e molti li “regolano” con gli strumenti appositi , ma con un coordinamento tra biblioteche si può arrivare, questa almeno è la speranza, a compiere un’operazione per nulla invasiva eppure utile a garantire la memoria .

D’altra parte le tecnologie usate da Internet Archive, in particolare il crawler Heritrix , rispettano le esclusioni del protocollo robots.txt , che garantisce ai webmaster la possibilità di non essere contemplati nell’operazione di archiviazione. Ed è probabilmente questa la più grande differenza dell’impostazione che si sta perseguendo rispetto agli “obblighi” previsti dalla legge 106. Per il futuro si può ipotizzare la realizzazione di quello che Bergamin descrive come uno snapshot annuale del web , una “fotografia” di quanto è pubblicato. Un domani potrebbero esservi delle categorizzazioni dei contenuti, pensate per consentire un aggiornamento periodico più ravvicinato per siti e spazi web di particolare rilievo. “Ma ci tengo a precisare – spiega Bergamin – che da sempre l’istituzione bibliotecaria è orogliosa della natura neutra e non decide la rilevanza di questo o di quello”. E, allora, come procedere? Per ora si possono avanzare solo alcune ipotesi.

Si potrebbe, ad esempio, ricorrere ad un sistema di ranking simile a quello utilizzato dai più avanzati motori di ricerca, per determinare i siti preminenti, quelli che sono maggiormente linkati da altri siti, a loro volta più o meno rilevanti a seconda del proprio ranking.
E magari integrare a questo sezioni “specializzate” di crawling : per esempio dedicate a siti di interesse pubblico nati con fondi pubblici, o anche a siti che si aggiornano più frequentemente o ancora a siti di interesse territoriale. “Si tratta – spiega il responsabile dei sistemi della Biblioteca – di organizzare la memoria di questi siti per organizzare anche le procedure di ritorno del crawler su quelle pagine”.

E le prospettive che si aprono sono molte. “Quando si fa una ricerca o un paper scientifico – spiega Bergamin – si fanno delle citazioni, se le citazioni non ci sono o mancano la ricerca perde molto, se non tutto, del suo valore: qualcuno ha proposto che quando un ricercatore citi qualcosa che è in rete, possa far scattare dei meccanismi automatici , un “ping” del materiale citato e quindi l’archiviazione di quanto è citato”. Anche questo in sé potrebbe essere un altro criterio di rilevanza da introdurre in un futuro crawler.

Ma chi dovrà gestire tutto questo? Oggi le norme non ci sono ma la percezione negli ambienti del Consorzio internazionale è che debbano essere le strutture pubbliche a gestire le operazioni di crawling. “Internet Archive è semplicemente eccezionale – afferma a questo proposito Bergamin – ma come Google è una iniziativa privata. Se in ballo c’è la memoria del Web questo lavoro non potrà che avvenire in ambito pubblico”.

In tutto questo, un grosso punto di domanda naturalmente è quello relativo alla collaborazione dei webmaster. Fatta salva la possibilità di bloccare l’harvesting ove non sia desiderato, quello che si propone il Consorzio è in fondo anche di sensibilizzare chi la rete la crea, la vive e la rende viva. Il tempo dirà se riuscirà nell’impresa.

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicato. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy

  • Anonimo scrive:
    Google MUSIC trends
    figo! :)http://www.google.com/trends/music?where=help#howcontribute
  • Anonimo scrive:
    coop dmoz?
    non è che google coop fa quello che fanno già gli operatori di dmoz.org?e che quindi tutte queste fonti di "operai gratis" si disperderanno invece di rendere interoparabili i dati utili che hanno già immesso in vari servizi?
  • Anonimo scrive:
    Un altro chiodo sulla bara di zio Bill
    http://homepages.ihug.co.nz/~oblivion/Bills-BSOD.jpg
  • Anonimo scrive:
    Windows più semplice?
    http://www.google.com/trends?q=windows%2C+linux%2C+mac+os+xMa se ci sono più ricerche per Windows, forse è perché non è poi così semplice come si dice? @^
    • Anonimo scrive:
      Re: Windows più semplice?
      - Scritto da:
      http://www.google.com/trends?q=windows%2C+linux%2C

      Ma se ci sono più ricerche per Windows, forse è
      perché non è poi così semplice come si dice?
      @^Da quel grafico si nota che il record di richieste su Mac OS X è a S.Francisco. Che guarda caso è la capitale mondiale dei ghé. Ma allora le dicerie sui macuser, vuoi vedere che un fondo di verità...(troll2)(troll3) :p :p :p :D :D :D(rotfl)
      • Anonimo scrive:
        Re: Windows più semplice?
        - Scritto da:

        - Scritto da:


        http://www.google.com/trends?q=windows%2C+linux%2C



        Ma se ci sono più ricerche per Windows, forse è

        perché non è poi così semplice come si dice?

        @^
        Da quel grafico si nota che il record di
        richieste su Mac OS X è a S.Francisco. Che guarda
        caso è la capitale mondiale dei ghé. Ma allora le
        dicerie sui macuser, vuoi vedere che un fondo di
        verità...
        (troll2)(troll3) :p :p :p :D :D :D(rotfl)Ma ROTFL!!!!
  • ND scrive:
    il mondo va a pezzi
    http://www.google.com/trends?q=%22how+to+kill%22%2C%22how+to+love%22&ctab=1&date=all&geo=all
    • Anonimo scrive:
      Re: il mondo va a pezzi
      - Scritto da: ND
      http://www.google.com/trends?q=%22how+to+kill%22%2Notare come le Filippine siano il posto dove ci si ama di più.
    • ND scrive:
      Re: il mondo va a pezzi
      gli indiani hanno strani dubbihttp://www.google.com/trends?q=%22how+to+kill%22%2C%22how+to+love%22%2C%22how+to+fuck%22&ctab=1&date=all&geo=all
      • Phil Soryxu scrive:
        Tipici how to di PI
        http://www.google.com/trends?q=%22how+to+update%22%2C%22how+to+flash%22%2C%22how+to+disable%22&ctab=1&date=all&geo=all
  • Anonimo scrive:
    Re: moolto interessante G.Trends

    http://www.google.it/trends?q=opera%2C+firefox&ctamegliohttp://www.google.it/trends?q=opera%2C+firefox%2C+internet+explorer&ctab=1&date=all&geo=allche servizio fantastico!
  • Anonimo scrive:
    Re: moolto interessante G.Trends
    - Scritto da:
    http://www.google.it/trends?q=gay%2Cetero&ctab=1&d

    O_O

    x°Dvabbé dai, ma chi è che cerca "ETERO" quando vuole cercare etero? nessuno!!! :)e questa?http://www.google.com/trends?q=qui%2C+quo%2C+quaQUI surclassa quo e qua! :)
    • Anonimo scrive:
      Re: moolto interessante G.Trends
      Mi ci metto pure io.http://www.google.com/trends?q=playstation%2C+xbox%2C+gamecube&ctab=0&date=all&geo=allCredo che i vari reparti marketing impazziranno con questa cosa.
      • Anonimo scrive:
        Re: moolto interessante G.Trends
        - Scritto da:
        Mi ci metto pure io.
        http://www.google.com/trends?q=playstation%2C+xbox
        Credo che i vari reparti marketing impazziranno
        con questa
        cosa.anche io.l'importante è che si ricordino cosa significa.significa "LA GENTE CERCA _X_"a volte non cerca perchè non gli serve cercare.mi serve cercare "Coca Cola" ?no, non mi serve affatto
    • Anonimo scrive:
      Re: moolto interessante G.Trends
      http://www.google.com/trends?q=qui%2C+quo%2C+qua

      QUI surclassa quo e qua! :)Ma ROTFL!!
  • Anonimo scrive:
    Ho mandato il CV a Google
    (ghost)
  • Anonimo scrive:
    indovina indovinello..
    Fate un trend search con la parola "sex".... risultati interessanti no? Guardate chi c'e' al primo posto ;)
    • xuneel scrive:
      Re: indovina indovinello..
      - Scritto da:
      Fate un trend search con la parola "sex"....
      risultati interessanti no? Guardate chi c'e' al
      primo posto
      ;)Egitto? :-DIo ho fatto un'altra ricerca, comparativa tra internet explorer e firefox: http://www.google.com/trends?q=firefox%2C+internet+explorer&ctab=0&date=all&geo=allSembra che in Germania siano fanatici di firefox...statistiche per il search: punto informatico:http://www.google.com/trends?q=punto+informatico&ctab=0&date=all&geo=allopure chi ha cercato berlusconi: http://www.google.com/trends?q=berlusconi&ctab=0&date=all&geo=allsembra interessante 'sto google trends.-----------------------------------------------------------Modificato dall' autore il 11 maggio 2006 09.17-----------------------------------------------------------
      • Cavallo GolOso scrive:
        Re: indovina indovinello..
        - Scritto da: xuneel
        sembra interessante 'sto google trends.... ho visto dopo che avevi fatto ricerche simili :)io ovviamente sono partito da quelle di interesse della ditta nella quale lavoro... e già si vede parecchio.davvero parecchio!
  • midori scrive:
    mi ricorda qualcosa
    'Sto Coop mi pare uguale a http://del.ucio.us-----------------------------------------------------------Modificato dall' autore il 11 maggio 2006 01.51-----------------------------------------------------------
  • Davz scrive:
    Re: Google si allarga su nuovi fronti
    Quindi pure Google è comunistaaaaaa!!!!Uhhhhh Google Coop... i comunisti sono in tutti i gangliiiiiiii, siamo perduti! (rotfl)
  • Anonimo scrive:
    straordinari!
    questa di google sì è *innovazione*.A morte il monopolio stagnante, a morte m$!
    • Anonimo scrive:
      Re: straordinari!
      - Scritto da:
      questa di google sì è *innovazione*.
      A morte il monopolio stagnante, a morte m$!
      tanto per aprire bocca no?
  • Anonimo scrive:
    Diabolici!
    Ora MS per corrergli dietro inzepperà Vista di altri gadget inutili e sarà costretta a ritardarlo ulteriormente @^(idea) @^(idea) :p
    • Anonimo scrive:
      Re: Diabolici!
      - Scritto da:
      Ora MS per corrergli dietro inzepperà Vista di
      altri gadget inutili e sarà costretta a
      ritardarlo ulteriormente @^(idea) @^(idea)
      :pMS farebbe meglio a smetterla di giocare con i sistemi operativi...
      • pippo75 scrive:
        Re: Diabolici!


        MS farebbe meglio a smetterla di giocare con i
        sistemi
        operativi...cosa c'entra MS con i sistemi operativi :-)
        • Anonimo scrive:
          Re: Diabolici!
          - Scritto da: pippo75




          MS farebbe meglio a smetterla di giocare con i

          sistemi

          operativi...


          cosa c'entra MS con i sistemi operativi :-)Sapessi... quando non ci sono i genitori a controllarli, stanno sempre a pasticciarci sopra :D :D :D
Chiudi i commenti