Indice Motori di Ricerca
Vacanze Ultimo Minuto
Siti partner
- Realizzazione siti web
- Promozione siti web
- Vacanze ultimo minuto
- GoClick.it
- Ioloso
- IlTuoSito
- Pianeta Cellulare
- Risorse Gratis
- Estratto Conto
- Soluzioni Internet
- Aziende Umbre
- P2P Italia
- Mr Webmaster
- Suonerie Italia
- Webmaster Risorse
- Dablones
- Elenco Aziende
- Trattamenti Laser
- Chattare
- Registrazione domini
- Spazio Web
- Suonerie con Sms
- Scambio Link
- Online: 4
Il file robots.txt e i motori di ricerca
Robots.txt: la guida per i motori di ricerca
Il file robots.txt è un file di testo richiesto dalla quasi totalità degli spider o robot dei motori di ricerca per conoscere quali file o cartelle devono essere indicizzate e quali no. Tuttavia, non tutti gli spider seguono alla lettera le indicazioni presenti sul file robots.txt e indicizzano tutte le pagine e le cartelle presenti. Questi li definisco "spider cattivi" e possono essere esclusi bannando il loro ip.
Per capire come si deve compilare il file robots.txt continua a leggere questo articolo. Il file robots.txt deve essere inserito all'interno della stessa cartella che contiene la vostra home page, che è poi il posto dove lo spider si aspetta che sia.
Esempio di corretta compilazione del file robots.txt
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /group/
User-agent: msnbot Crawl-delay: 10
User-agent: Teoma Crawl-delay: 10
User-agent: Slurp Crawl-delay: 10
User-agent: aipbot Disallow: /
User-agent: BecomeBot Disallow: /
User-agent: psbot Disallow: /
Finde della compilazione del file robots.txt
Il file robots.txt deve essere salvato come semplice file di testo e deve essere sempre nominato così: robots.txt
Diamo ora un rapido sguardo a quello che c'è scritto nel file robots.txt.
La riga User-agent: * significa che il file robots.txt si rivolge a tutti gli spider. L'asterisco significa "Tutti". Scrivere Disallow: /cgi-bin/ significa dire a tutti gli spider di non indicizzare la cartella cgi-bin. Nota come il nome della cartella in questione deve essere inserita tra i caratteri //
Se avessi messo la seguente riga "Disallow: /" allora avrei detto a tutti gli spider di non indicizzare nulla. Mentre la riga "Crawl-delay: 10" si riferisce a quegli spider che richiedono di memorizzare troppe pagine contemporaneamente, rischiando di rallentare la visualizzazione del vostro sito agli ignari visitatori. Lo spider di Google non è uno di questi e non richiede le pagine del nostro sito un sito con una eccessiva frequenza. Il valore 10 sta ad indicare il tempo, espresso in secondi, tra la richiesta di una pagine e l'altra.
La riga User Agent: MSNbot si rivolge allo spider del motore di ricerca MSN.com, mentre Slurp è di Yahoo e Teoma e per AskJeeves. Gli altri in elenco sono quelli che chiamo "spider cattivi" che non servono a nessuno....
Per vedere il contenuto dei file robot.txt basta scrivere il nome di dominio di un sito ed aggiungere robot.txt. Se il file è presente allora verrà mostrato dal tuo browser. Clicca sul link che segue per vedere il file robots.txt di Amazon
Google e Yahoo memorizzano le pagine anche dei siti che non contengono il file robots.txt, mentre MSM sembra voler richiedere la presenza del file robots.txt prima di iniziare ad indicizzare un sito.
ATTENZIONE: il file in questione si deve chiamare robots.txt e NON robot.txt


