Google, eccitazione da Caffeine

Importante rinnovo infrastrutturale in quel di Mountain View, con un nuovo sistema di indicizzazione dei siti web. Che proporrà contenuti più recenti più velocemente, dice BigG
Importante rinnovo infrastrutturale in quel di Mountain View, con un nuovo sistema di indicizzazione dei siti web. Che proporrà contenuti più recenti più velocemente, dice BigG

La velocità nell’esecuzione, nella raccolta e nell’archiviazione delle informazione è un vero e proprio “imperativo categorico” in quel di Mountain View, un valore imprescindibile che val bene iniziative specifiche e rinnovi periodici dell’intero baraccone hardware-software che fa capo al Googleplex . Ultimo ma non ultimo di questi rinnovi è Caffeine , un nuovo sistema di indicizzazione dei contenuti pubblicati sul web con cui Google promette di fornire i risultati più recenti, più velocemente ed esattamente al momento giusto.

“Caffeine fornisce risultati il 50 per cento più recenti per le ricerche web rispetto al nostro ultimo indice – scrive l’ingegnere del software Carrie Grimes sul blog ufficiale dell’azienda – ed è la più vasta raccolta di contenuti web che abbiamo mai offerto”. Google sostiene che con Caffeine non ci sarà post di blog, intervento su forum o “news story” che non farà la sua comparsa all’interno del mastodontico database di Google Search in maniera quasi istantanea.

Per spiegare la sostanziale differenza tra il prima e il dopo , il coder della società che “costruisce motori di ricerca” per vivere – e magari li usa per veicolare pubblicità – fornisce qualche dato sul funzionamento del vecchio indice e di quello nuovo: il precedente sistema di indexing, scrive Grimes, era formato da vari strati con priorità e tempi di rinnovo differenti. “Per rinnovare uno strato del vecchio indice – spiega il programmatore – dovevamo analizzare l’intero web, il che implicava l’esistenza di un ritardo significativo tra la scoperta di una pagina e la presentazione all’utente”.

Con Caffeine tutto questo cambia, anzi viene rivoluzionato perché il nuovo engine è in grado di “analizzare il web in porzioni più piccole” rispetto all’intero indice e aggiornare il database continuamente, “in maniera globale”. “Una volta individuate nuove pagine, o nuove informazioni su pagine già esistenti” continua Grimes, “possiamo aggiungere queste direttamente all’indice. Di conseguenza è possibile trovare informazioni più recenti che mai – non importa quando o dove siano state pubblicate”.

Annunciato già nell’agosto 2009 e previsto per l’implementazione durante il dicembre dello stesso anno, l’engine di Caffeine non dev’essere stato un parto esattamente indolore visto che ci sono voluti altri sei mesi per integrarlo nel cuore dell’infrastruttura informatica di Mountain View. L’upgrade era comunque giustificato dalla necessità di stare al passo con l’enorme crescita delle informazioni pubblicate sul web, dice Grimes. Per non parlare della pressante concorrenza delle piattaforme di micro-blogging (Twitter in testa) naturalmente votate alla copertura “live” di notizie e fatti importanti, anche se questo Grimes non lo dice in maniera esplicita.

“Abbiamo sviluppato Caffeine con in mente il futuro” della ricerca marcata Google, conclude, un futuro che ha bisogno di fondamenta robuste capaci di crescere agli stessi ritmi vertiginosi con cui l’informazione corre da un capo all’altro del web mondiale. Stando alle informazioni fornite dall’ingegnere, Caffeine è in grado di processare centinaia di migliaia di pagine al secondo in parallelo, occupa circa 100 milioni di Gigabyte di spazio di storage (che poi sarebbero 100 Petabyte o 0,1 Exabyte) in un singolo database e vi aggiunge dati alla velocità superluminare di centinaia di migliaia di Gigabyte ogni giorno.

Alfonso Maruccia

Link copiato negli appunti

Ti potrebbe interessare

09 06 2010
Link copiato negli appunti