Google: non mi indicizzate le interiora

Il celeberrimo motore di ricerca decide di evitare che i motori concorrenti indicizzino le proprie pagine e chiude loro la porta. Mossa inevitabile?
Il celeberrimo motore di ricerca decide di evitare che i motori concorrenti indicizzino le proprie pagine e chiude loro la porta. Mossa inevitabile?


Roma – I motori di ricerca concorrenti non potranno più indicizzare l’intero web di Google, uno dei più celebri motori della rete. Lo ha deciso lo stesso Google per proteggere il proprio network da quella che viene considerata una eccessiva “invasività” dei web crawler automatici dei competitor.

Google , che oggi indicizza più di 2 miliardi di pagine web, ha costruito la propria fortuna su tecnologie di ricerca e indicizzazione del tutto innovative che comprendono anche il crawling tra i siti web per “catturare” le pagine da indicizzare. Ma è un crawling che Google definisce “discreto” e “attento” a non abusare delle risorse dei siti indicizzati, cosa che invece non avverrebbe da parti di altri crawler proprio quando accedono a Google.

Utilizzando la prassi standard che permette di chiudere la porta all’indicizzazione da parte dei motori, ovvero inserendo sui propri server i file robots.txt confezionati ad hoc, Google ha in pratica “protetto” 19 aree del proprio network. Si tratta di una prassi che protegge, però, solo da quei crawler che la rispettano, in pratica tutti i maggiori, ma che potrebbe non fermare molti dei quasi 300 crawler continuamente attivi in rete.

Tra le aree così protette è incluso l’archivio Usenet, un indice che comprende milioni di messaggi che Google ha acquisito da Deja e “ricostruito”, nonché lo speciale motore per la ricerca delle immagini su internet, un motore sfruttato anche da alcuni suoi competitor.

Link copiato negli appunti

Ti potrebbe interessare

28 03 2002
Link copiato negli appunti