 |
| Modules |  |
|  |
|
Robots.txt
Il Robots.txt e' un
semplice file txt,
ideato da un gruppo di
ricercatori con
l'intento di limitare
agli spider la loro
capacità di
infiltrazione nel web
laddove non necessario o
vietato. Il suo compito
per l'appunto è quello
di adibire o no
l'accesso al sito in
questione filtrando
singolarmente ogni
spider, autorizzando ad
esaminare i nostri
documenti e nel caso in
cui ci sul nostro sito
vi sia una cartella o un
file riservato, non
consentirne l'accesso.
Inoltre, questo file
inibisce anche tutti
quei software utilizzati
per il download di
interi siti, impedendone
appunto lo scaricamento.
La differenza
sostanziale tra il file
di robots ed il meta
robots, è che il primo
può pilotare ogni
singolo spider
consentendo l'accesso ad
uno ed impedirlo
all'altro, può rendere
una directory o un file
non indicizzabile e
quindi rispettare la
nostra privacy, inoltre,
le istruzioni sono legge
vigente all'interno di
tutto il dominio e non
come il meta, valido
esclusivamente per
quella determinata
pagina ed ai link ad
essa appartenenti.
Il Codice da
utilizzare:
Le principali istruzioni
per la realizzazione del
file robots.txt in
sostanza sono 2:
1) User-agent: (determina
lo spider da escludere)
2) Disallow: (determina
l'area d'azione dello
spider)
Altri comandi
indispensabili sono: " *
" ; " / " ; " # "
Esempio:
proviamo ora ad escudere
lo spider di google che
si chiama "Googlebot".
Questo è il codice:
User-Agent: Googlebot
Disallow: /
Qui viene impedito allo
spider Googlebot
l'accesso a tutte le
directory del sito
indistintamente. La
limitazione è stabilita
dallo (/) Slash, che
nell'esempio appena
visto comprende l'intero
sito. E' interessante
far notare che l'area di
scrittura NON è Case
Sensitive, ciò significa
che l'utilizzo del
maiuscolo o minuscolo
non influenza in alcun
modo la correttezza del
codice.
Proviamo ora quest'altro
codice, che ci permette
di dare un altro tipo di
"comando" agli spiders:
# esclusione per
tutti gli spiders a
Pagine e Pagina.htm
User-Agent: *
Disallow:/Pagine/
Disallow:/Pagina.htm
In questo modo si
esclude l'accesso
a TUTTI gli spider alla
cartella "Pagine ed al
file Pagina.htm", il
carattere "#" verrà
interpretato come riga
di commento senza
influenzare il codice.
Quando un software
accede al nostro sito
con la funzione di
interpretare il nostro
html assume le sembianze
di un "User-Agent", cioè
lo spider di un motore,
un software per download
senza esclusione per gli
stessi browser che
permettono di
visualizzare il nostro
sito, quindi tutto ciò
che interpreta il nostro
codice.
Questi sotto descritti "User-Agent"
sono fra i più inutili e
appesantiscono il server
con continue richieste,
scansionano il nostro
sito alla ricerca di
e-mail o altro.
User-Agent:
Googlebot-Image
(Indicizza tutte
le nostre Immagini).
Disallow: /
User-agent:
EmailCollector
(Scansiona
il Web alla ricerca di
E-mail).
Disallow: /
User-agent: Teleport
(Software
per lo scaricamento di
interi siti).
Disallow: /
INFO: Il file robots.txt,
va posizionato nella
root principale del sito
dove si trova anche l'index.
Quindi, tanto per dare
un'occhiata e capire
meglio come funzionano
questo files robots.txt
date un'occhiata ai file
di Robots dei siti più
importanti, come? Si
trovano sempre nella
stessa posizione
"http:www.nomedelsito.itrobots.txt".
Aggiunto: July 23rd 2006 Recensore: Webtarget Voto:      Hits: 295 Lingua:
[ Torna Indice Recensioni | Posta Commento ] |
|
| 
|