Benvenuto su Web Directory - Seo Tools Webtarget.org!
     Modules
· Home
· Archivio Articoli
· Argomenti
· AvantGo
· Cerca
· Contatti
· Downloads
· Invia News
· Manuali
· News
· Passaparola
· Profilo Utente
· Seo Tools

     


     


     



Robots.txt

Il Robots.txt e' un semplice file txt, ideato da un gruppo di ricercatori con l'intento di limitare agli spider la loro capacità di infiltrazione nel web laddove non necessario o vietato. Il suo compito per l'appunto è quello di adibire o no l'accesso al sito in questione filtrando singolarmente ogni spider, autorizzando ad esaminare i nostri documenti e nel caso in cui ci sul nostro sito vi sia una cartella o un file riservato, non consentirne l'accesso.

Inoltre, questo file inibisce anche tutti quei software utilizzati per il download di interi siti, impedendone appunto lo scaricamento.
La differenza sostanziale tra il file di robots ed il meta robots, è che il primo può pilotare ogni singolo spider consentendo l'accesso ad uno ed impedirlo all'altro, può rendere una directory o un file non indicizzabile e quindi rispettare la nostra privacy, inoltre, le istruzioni sono legge vigente all'interno di tutto il dominio e non come il meta, valido esclusivamente per quella determinata pagina ed ai link ad essa appartenenti.

Il Codice da utilizzare:
Le principali istruzioni per la realizzazione del file robots.txt in sostanza sono 2:
  1) User-agent:       (determina lo spider da escludere)     
2) Disallow:           (determina l'area d'azione dello spider)
Altri comandi indispensabili sono: " * " ; " / " ; " # "  
  Esempio:
proviamo ora ad escudere lo spider di google che si chiama "Googlebot". Questo è il codice: User-Agent: Googlebot
Disallow: /

Qui viene impedito allo spider Googlebot l'accesso a tutte le directory del sito indistintamente. La limitazione è stabilita dallo (/) Slash, che nell'esempio appena visto comprende l'intero sito. E' interessante far notare che l'area di scrittura NON è Case Sensitive, ciò significa che l'utilizzo del maiuscolo o minuscolo non influenza in alcun modo la correttezza del codice.

Proviamo ora quest'altro codice, che ci permette di dare un altro tipo di "comando" agli spiders:
  # esclusione per tutti gli spiders a Pagine e Pagina.htm
User-Agent: *
Disallow:/Pagine/
Disallow:/Pagina.htm

In questo modo si esclude l'accesso a TUTTI gli spider alla cartella "Pagine ed al file Pagina.htm", il carattere "#" verrà interpretato come riga di commento senza influenzare il codice.

Quando un software accede al nostro sito con la funzione di interpretare il nostro html assume le sembianze di un "User-Agent", cioè lo spider di un motore, un software per download senza esclusione per gli stessi browser che permettono di visualizzare il nostro sito, quindi tutto ciò che interpreta il nostro codice.
Questi sotto descritti "User-Agent" sono fra i più inutili e appesantiscono il server con continue richieste, scansionano il nostro sito alla ricerca di e-mail o altro.

User-Agent: Googlebot-Image         (Indicizza tutte le nostre Immagini).
Disallow: /

User-agent: EmailCollector              (Scansiona il Web alla ricerca di E-mail).
Disallow: /

User-agent: Teleport                       (Software per lo scaricamento di interi siti).
Disallow: /

INFO: Il file robots.txt, va posizionato nella root principale del sito dove si trova anche l'index. Quindi, tanto per dare un'occhiata e capire meglio come funzionano questo files robots.txt date un'occhiata ai file di Robots dei siti più importanti, come? Si trovano sempre nella stessa posizione "http:www.nomedelsito.itrobots.txt".  

Aggiunto: July 23rd 2006
Recensore: Webtarget
Voto:
Hits: 295
Lingua:

  

[ Torna Indice Recensioni | Posta Commento ]

Robots.txt
Postato da Anonymous il 2008-01-08 15:35:59
Mio Voto:


Per una guida completa sul posizionamento è possibile seguire questo link: Guida al posizionamento sui motori di ricerca





webtarget.org Aggiungi un sito Disclaimer Privacy Mappa Sito Backend Valid Robots.txt Google Dw Free Pagerank Checker
Google Sitemaps Pc-System
Webtagert.org © 2006
Generazione pagina: 0.29 Secondi