I bot di Google indicizzano i testi nelle immagini

I bot di Google indicizzano i testi nelle immagini

Mountain View indicizza anche i contenuti dei documenti digitalizzati a mezzo scanner. Un tocco di OCR e le immagini formato pdf diventano materiale ricercabile e con cui sferruzzare
Mountain View indicizza anche i contenuti dei documenti digitalizzati a mezzo scanner. Un tocco di OCR e le immagini formato pdf diventano materiale ricercabile e con cui sferruzzare

I bot di Google sgusciano anche fra file postati come immagini, fra le ricerche compaiono risultati estratti da documenti che i netizen si sono limitati a digitalizzare con uno scanner. Un’immagine composta da una manciata di parole diventa una manciata di parole a cui Google consente di accedere attraverso una ricerca.

I testi contenuti in questi documenti non saranno più isolati dalla rete: dopo aver lavorato sui contenuti flash, Google si sta industriando per trasformare in testi da indicizzare tutti i documenti postati in formato pdf sotto forma di immagini, per garantire ai netizen l’accesso a documenti prima inaccessibili se non si era a conoscenza della URL presso cui potevano essere rintracciati o dei metadati su cui fare leva, per garantire ai netizen la possibilità di attingere a risorse formato immagine che sappiano rispondere alle loro domande.

“Ogni giorno, persone di tutto il mondo postano online documenti digitalizzati – illustrano da Mountain View nel blog ufficiale – Questi file solitamente contengono immagini di testi, piuttosto che testi veri e propri. Ma tutti questi documenti hanno una cosa in comune: qualcuno da qualche parte ha pensato che fossero abbastanza di valore per essere condivisi con il mondo”. Alcuni documenti sono già stati indicizzati , alcune immagini sono già state trasformate in risorse accessibili attraverso i motori di ricerca: è possibile accedere ai paragrafi più remoti di documenti accademici redatti con una macchina da scrivere e in precedenza pressoché irraggiungibili, è possibile consultare decisioni di tribunali che ancora non hanno proceduto alla completa migrazione al digitale.

La tecnologia che Google ha messo in campo per rendere accessibile l’informazione formato immagine è OCRopus, sviluppata da HP, coltivata da Mountain View e rilasciata affinché tutti la possano affinare. Non è dato sapere in che porzione i documenti che circolano in rete formato immagine siano stati affidati all’interprete di Google: il blog di Mountain View fa ora riferimento a quattro immagini pdf convertite in testo e in formato html. È così che i netizen possono attingere ai documenti ed estrapolare citazioni senza doversi improvvisare amanuensi da tastiera.

Il sistema OCR di Google ancora non distingue le immagini presenti nel testo dalle immagini del testo: nelle versioni ricercabili dei pdf non vengono incluse le immagini che arricchiscono i documenti digitalizzati.

La conversione massiva in testo dei documenti in formato immagine, secondo alcuni osservatori apre scenari inquietanti per quanto riguarda la privacy dei cittadini i cui dati personali siano contenuti in documenti emessi da istituzioni che non abbiano ora delegato a Google la transizione completa al digitale. Ma, una volta immessa in rete, è impensabile arginare l’informazione: “Questo – conferma Evin Levey, dirigente di Google – è un piccolo ma importante passo in avanti nella nostra missione tesa a rendere accessibile e utile tutta l’informazione del mondo”.

Gaia Bottà

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
3 nov 2008
Link copiato negli appunti