Come funzionano gli spider e i robot dei motori di ricerca?
In molti ancora ritengono che un sito web, per essere aggiunto al data base di un motore di ricerca, debba essere visitato da qualcuno che abbia poi la facoltà di decidere se quel sito debba essere o meno incluso nel motore di ricerca. Immagina per un attimo che, se questo fosse vero, con milioni di siti pubblicati e con alcuni di questi che aggiornano quotidianamente il proprio contenuto, sarebbero necessari migliaia di persone che archiviassero tutte le nuove informazioni disponibili. Questo lavoro, invece, viene svolto dagli spider, conosciuti anche con il nome di robot. Dunque, gli spider e i robot, sono dei piccoli programmi che i motori di ricerca utilizzano per archiviare all’interno dei propri data base nuovi siti e nuovi contenuti.
Gli spider sono pezzi di codice o software che hanno un solo scopo; cercare contenuto in ogni pagina web presente in internet. Gli spider e i robot hanno dunque un ruolo molto importante sull’efficenza del singolo motore di ricerca.
Gli spider e i robot visitano i siti web e raccolgono le necessarie informazioni di cui hanno bisogno per determinare la natura del contenuto del sito e successivamente aggiungono queste informazioni al data base del motore di ricerca. Gli spider e i robot seguono i link da un sito web all’altro così da poter raccogliere informazioni in modo continuo e senza soluzione di continuità. L’obiettivo finale degli spider è quello di raccogliere informazioni creando un data base, il più esaustivo possibile, affinchè i visitatori ottengano delle risposte pertinenti e di qualità in funzione delle loro ricerche.
Ma come funziona esattamente gli spider e i robot dei motori di ricerca?
L’intero processo inizia quando una pagina web o un sito intero vengono registrati presso un motore di ricerca. L’indirizzo registrato (URL) viene aggiunto alla coda di siti che devono essere visitati dagli spider del motore di ricerca. La registrazione può essere facoltativa proprio perchè. come abbiamo anticipato, la maggior parte degli spider sono in grado di trovare il sito seguendo un link presente in una altro sito web. Questa è la ragione per cui è una buona idea avere dei link da altri siti. Aumentando la link popularity del proprio sito e ottenendo dei link da altri siti che trattano lo stesso tema trattato dal tuo sito web, otterrai un alto valore del Page Rank, avendo quindi, delle posizioni primarie sui motori di ricerca.
Quando lo spider di un motore di ricerca vista un sito, esso controlla che ci sia il file chiamato robots.txt. Il file robots.txt dice al robot alcune cose importanti; quali aree del sito debbano, per esempio, essere indicizzate e quali invece non debbano essere indicizzate. Tutti gli spider dei motori di ricerca cercano questo file, è dunque buona norma averlo, anche se questo dovesse essere completamente bianco.
Una volta che gli spider e i robot hanno raccolto tutte le informazioni sulle pagine visitate, le comunicano ai database dei motori di ricerca. Come vengono organizzate queste informazioni? Le informazioni raccolte vengono organizzate e catalogate secondo alcuni algoritmi proprietari dei singoli motori di ricerca. Gli algoritmi, generati dagli ingenieri dei motori di ricerca, sono dei parametri che determinano poi la posizione di una pagina in funzione del loro contenuto. Nel momento in cui le informazioni sono aggiunte ai data base, esse sono rese quasi subito disponibili agli utenti che faranno le ricerche.