| |
|
|
|
|
 |
Dossier : Le
Fichier Robots.txt - Partie 1 |
|
| |
|
Introduction :
Ce dossier à pour objectif de vous expliquez comment optimiser le
référencement de votre site internet. Vous ne le savez peut être pas
mais les moteurs de recherche se servent d’un fichier robots.txt qui
doit obligatoirement se trouver à la racine de votre site.
Exemple : http://www.monsite.com/robots.txt
Attention :
Certains webmaster font souvent une erreur fatale avec ce fichier, ils
oublient le S à la fin. Or, si vous ne mettez pas le S, les moteurs de
recherche ne trouveront pas le fichier robots, donc il ne servira
strictement à rien.
Fonctionnement :
Ce fichier va donner des indications au spider du moteur sur ce qu'il
peut faire et ce qu'il ne doit pas faire sur le site. Dès que le spider
d'un moteur arrive sur un site, il va rechercher le document présent à
l'adresse http://www.monsite.com/robots.txt avant d'effectuer la moindre
"indexation de document". Si ce fichier existe, il le lit et suit les
indications qui y sont inscrites. S'il ne le trouve pas, il commence son
travail de lecture et de sauvegarde de la page HTML qu'il est venu
visiter, considérant qu'a priori rien ne lui est interdit.
Exemple :
User-agent: *
Disallow: /perso/
Disallow: /travail/
Disallow: /divers/prix.html
Dans cet exemple :
User-agent: *
L'accès est accordé à tous les agents (tous les spiders), quels qu'ils
soient.
User-Agent: Googlebot
Signifie que la consigne s’applique uniquement pour le moteur de google.
Disallow:
Le robot n'ira pas explorer les répertoires /perso / et /travail/, il ne
visitera pas non plus la page prix.html dans le répertoire divers. Mais
les autres pages du répertoire divers seront indexées car seul la page
prix.html est exclue.
Disallow:/ Permet d'exclure toutes les pages du serveur (aucune
aspiration possible).
Disallow: Permet de n'exclure aucune page du serveur (aucune
contrainte).
Un fichier robots.txt vide ou inexistant aura une conséquence identique
l’indexation de toutes les pages.
User-agent: Scooter
Disallow: /home.html
Interdit à Altavista la page /home.html
Important :
Le fichier robots.txt ne doit pas contenir de lignes vierges au niveau
des consignes pour les moteurs.
>> Suite du dossier
|
|
|
|