Newbie.it/ Motori di ricerca, zig zag nel caos

Newbie.it/ Motori di ricerca, zig zag nel caos

Dal sito dedicato ai neofiti della Rete una veloce descrizione di cosa sono e come funzionano i motori di ricerca, come inserirvi il proprio sito, come sapere chi ha segnalato il sito
Dal sito dedicato ai neofiti della Rete una veloce descrizione di cosa sono e come funzionano i motori di ricerca, come inserirvi il proprio sito, come sapere chi ha segnalato il sito

Newbie.it – Il motore di ricerca è un sito basato su un programma molto complesso in grado di fornire indicazioni precise su come raggiungere le informazioni richieste dall’utente.

Esistono sulla rete un’infinità di motori di ricerca più o meno grandi, alcuni dei quali si sono specializzati su un particolare settore (es. immagini, mp3, etc), altri invece riescono ad offire al loro pubblico un’infinità di servizi aggiuntivi come negozi elettronici e traduttori istantanei, ma la loro funzionalità principale, che attira un gran numero di visitatori (e quindi anche di pubblicità), rimane la ricerca gratuita delle informazioni.

Attualmente i motori di ricerca ricoprono un ruolo assolutamente indispensabile: sono la principale fonte per la ricerca di informazioni su Internet poiché sono gli unici a disporre di immensi database di siti faticosamente aggiornati nel tempo. Queste strutture però, raccolgono solo una piccola percentuale dei siti presenti sul web (stime dicono circa 1/4) e non sono ancora in grado di fornire una risposta precisa per ogni ricerca, pertanto sono allo studio tecnologie superiori che riusciranno, si spera, a fornire all’utente solo i documenti di cui ha bisogno (nel minor tempo possibile) attingendo da una banca dati sempre più vasta.

Un Search Engine (trad. in inglese) è quindi un grande database di singole pagine che compongono un sito web, e diventa dunque parecchio importante sceglierlo anche in base a quello che si desidera trovare. Infatti, una volta che abbiamo fornito le parole “chiave”, il motore effettua automaticamente per noi una scansione dei suoi dati, verificando la presenza delle parole inserite dall’utente nell’insieme delle pagine di cui dispone (e nelle parole di descrizione, dette “keyword”, che il webmaster inserisce per indicizzare al meglio il suo sito sul motore).

Da un punto di vista più tenico, il software del motore di ricerca è composto da 3 blocchi di lavoro:

– Spider, in italiano “ragno”, un software capace di catalogare i siti sottoposti al motore dagli utenti, ma sopratutto in grado di navigare autonomamente sulla rete alla ricerca di documenti non ancora archiviati. Lo spider segue la struttura dei link di un sito e, ogni volta che incontra un collegamento ad un’altra pagina, archivia il documento e segue il link successivo, disegnando in maniera decisamente capillare una mappa della rete piuttosto precisa (per quello che può esserlo una realtà così dinamica!) ed ampliando notevolmente il numero di pagine presenti nel database.

– DataBase, una struttura elettronica compatta in grado di contenere in maniera organizzata ed ordinata tutte le informazioni raccolte dallo spider. Da questa struttura vengono estratte le informazioni elencate a video quando si esegue una ricerca.

– Indice, il componente di interfaccia tra il software e l’utente finale, infatti contiene i riferimenti alle informazioni presenti nel database; l’organizzazione strutturale di questo componente diventa dunque di fondamentale importanza relativamente ai tempi di ricerca che devono essere quasi immediati.

A livello hardware invece, si tratta di strutture decisamente complesse e performanti. L’utilizzo dei motori è assolutamente semplice, poiché per una ricerca base è sufficiente inserire le parole nella casella e premere il tasto che avvia il processo. Purtroppo però i risultati della ricerca non dipendono esclusivamente dalla potenza e dal numero di siti catalogati dal search engine che stiamo utilizzando, ma diventa altrettanto importante la capacità dell’utente di filtrare il maggior numero di informazioni utilizzando delle tecniche appropriate.

Il problema più grande su Internet è, paradossalmente, trovare le informazioni di cui abbiamo bisogno. Una singola ricerca approfondita necessita di molto tempo, spesso infatti i risultati ottenuti sono “rumore” e non sono direttamente correlati con quello che stiamo cercando. Per evitare questa problematica esistono semplici accorgimenti da utilizzare prima della ricerca, inoltre i motori mettono a dispozione una sintassi (diversa per ognuno) capace, se adeguatamente utilizzata, di ridurre il numero di risultati ottenuti focalizzando l’attenzione esclusivamente su quelli più inerenti alle nostre esigenze.

Ecco alcuni consigli per restringere il numero di risultati:

– iniziare la ricerca dal particolare per arrivare, se non si trovano informazioni, al generale. Ad esempio iniziare da “cucchiaio”, e successivamente “posate”, “servizio”, etc.

– se si effettua una ricerca con più termini inserirli in ordine di importanza.

– utilizzare le maiuscole e le minuscole in maniera appropriata. Ad esempio per i nomi propri, per i luoghi geografici, etc

– utilizzare l’operatore logico AND per ricercare più termini contemporaneamente. Ad esempio con cucchiao AND forchetta AND coltello troveremo tutti i siti che hanno nello stesso documento tutte e tre le parole suddette.

– utilizzare l’operatore logico NEAR che ha la stessa funzionalità di AND, ma le parole richieste devono risultare “vicine” nel documento trovato. Ad esempio forchetta NEAR cucchiaio troverebbe un documento che contiene la frase “La forchetta ed il cucchiaio sono le due posate principali”, ma non uno che contiene “La forchetta viene utilizzata per infilzare il cibo e portarlo alla bocca in maniera educata. Allo stesso modo esiste un altra posata chiamata cucchiaio che serve per”. Nella prima frase le due parole risultano molto vicine, mentre la seconda verrà esclusa dai risultati perché le parole richieste sono distanti all’interno del documento. Questo permette di selezionare documenti in cui le parole richieste hanno una maggior probabilità di essere in relazione tra loro.

– utilizzare l’operatore logico OR per aggiungere una parola alla ricerca. Ad esempio cucchiaio OR argento troverà i documenti che contengono la parola “cucchiaio” OPPURE la parola “argento”.

– utilizzare l’operatore logico NOT per eliminare i documenti contenenti una certa parola. Ad esempio cucchiaio NOT forchetta troverà tutti i documenti che contengono la parola “cucchiaio” e da questi eliminerà quelli che contengono anche la parola “forchetta”.

– utilizzare il carattere * per non definire una parte della parola. Ad esempio cucchia* troverà documenti che contengono almeno una parola col suffisso indicato, quindi “cucchiaIO”, “cucchiaIA”, “cucchiaI” e così via.

– utilizzare “” (virgolette) per ricercare l’esatta sequenza delle parole immesse. Ad esempio “posate d’argento” cercherà solo i documenti che contengono esattamente la frase compresa tra le virgolette.

– utilizzare le () con le stesse regole matematiche. Ad esempio (cucchiaio AND forchetta) NOT argento troverà tutti i documenti che contengono la parola “cucchiaio” E la parola “forchetta” ma NON la parola “argento”.

– se si ha in mente una categoria specifica ma non un termine preciso utilizzare le Directory invece dei motori. Oppure i Meta Crawler per le ricerche più ampie. Tra i sogni più comuni di ogni Webmaster c’è quello di apparire al primo posto sui motori di ricerca più utilizzati. La motivazione è semplice: questi siti sono utilizzati quotidianamente da milioni di persone, pertanto sono tra i principali mezzi di promozione per un qualsiasi progetto web. Inoltre le ricerche producono normalmente un numero spropositato di risultati e le statistiche dicono che l’utente non va mai oltre la 3° pagina, da qui la necessità di trovarsi nei primi posti.

I siti vengono catalogati sui motori in due modi: automaticamente dagli spider (aggiornano continuamente centinaia di milioni di pagine), oppure grazie alla segnalazione manuale da parte del Webmaster. Ovviamente quest’ultima permette una maggiore libertà di personalizzazione e quindi un posizionamento solitamente più mirato.
Per riuscire a farsi indicizzare correttamente (ovvero inserire nell’Indice al livello gerarchico più alto possibile) è necessario descrivere al meglio il sito proposto tramite l’uso appropriato delle “keyword” e dei “meta tag”, ovvero una serie di parole e frasi che rappresentano il contenuto della pagina in maniera chiara, semplice e comunemente esaustiva.

Tra i passi fondamentali da ricordare per una corretta indicizzazione ricordiamo:

– la concorrenza, è necessario eseguire una ricerca sul motore scelto ed analizzare come sono fatte le prime 5-6 pagine che appaiono tra i risultati.

– il tag TITLE, deve essere composto da una frase contenente le parole chiave che descrivono il contenuto della pagina. Attenzione a non inserire solamente un elenco di parole senza senso, poiché molto spesso viene utilizzato dai motori come descrizione principale della pagina.

– il tag META NAME=”DESCRIPTION”, una descrizione più lunga (e diversa) del titolo ma che richiami sempre le stesse parole.

– il tag META NAME=”KEYWORD”, una decina di parole tutte diverse da loro (per evitare spam), che comprendano anche maiuscole e minuscole perché, come abbiamo visto, i motori scovano le informazioni anche in base alle priorità e il “key-sensitive” affina sicuramente la ricerca.

– modificare leggermente il contenuto dlla pagina riferendosi sempre alle parole chiave utilizzate in precedenza.

– le pagine gateway, ovvero delle pagine scritte appositamente per i motori di ricerca, sviluppate quindi con particolari accorgimenti senza scadere nell’illegale (spam, che ha l’effetto contrario), ma aiutando anzi gli utenti ed i motori stessi a trovare le informazioni corrette. In pratica si tratta di creare un numero x di pagine ottimizzate ognuna per una singola parola chiave, fornire una descrizione di quello che si troverà oltrepassando questa pagina e mettere i link corretti alla vera sezione del sito. Non scordiamoci ovviamente di sottoporla al motore 😉

Dopo la segnalazione armiamoci di santa pazienza ed attendiamo i primi risultati. Ogni motore ha i suoi tempi, informiamoci sui siti, sui Newsgroup e sulle board adatte, passato il tempo massimo valutiamo i risultati e nel caso proviamo nuovamente con una seconda registrazione.

Buona fortuna a tutti! ;-P

marlenek @ newbie.it

– Tips & info –
Per scoprire quali sono i siti già indicizzati che hanno inserito un link alle vostre pagine, basta utilizzare il parametro “link:” su Altavista seguito dall’indirizzo del vostro sito. Ad esempio potremmo inserire nel box di ricerca la frase link:http://www.newbie.it per trovare tutti i siti presenti su questo motore che linkano a Newbie.it.

Leggende metropolitane
Yahoo e Virgilio non sono motori di ricerca, bensì Directory. La differenza sta nel fatto che, mentre i primi utilizzano un programma apposito per la catalogazione dei siti, i secondi si avvalgono della componente umana, ovvero ci sono persone fisiche che vagliano le richieste di inserimento, le catalogano, le classificano ed infine le archiviano all’interno delle varie categorie gerarchiche che compongono la Directory. Il raggruppamento per categorie permette all’utente di districarsi in una struttura complessa con maggior facilità e di arrivare direttamente alle informazioni che gli interessano passando da macro categorie fino ad arrivare alla singola informazione.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
24 gen 2001
Link copiato negli appunti