Le fichier robots.txt
Le robots.txt permet est destiné aux moteurs.
Il permet d’autoriser ou non un moteur nommé (utile pour interdire les collecteurs de mails mais sachant que tous les robots ne respectent pas le robots.txt !).
Il permet également de spécifié des pages à ne pas suivre (Les pages qui n’ont aucun intérêt pour le référencement ; les dossiers de scripts, de formulaire, par exemple). Il permet ainsi une économie en ressources.
- Attention à la syntaxe et à la casse : c’est : robots.txt
- Les robots sont le plus souvent sensible à la casse
- Si les robots.txt sont destinés aux moteurs, ils sont lisibles par tous : ne pas y lister les répertoires cachés (il suffit de ne pas faire de liens dessus !)
- Le robots.txt est unique et doit être à la racine du site
- Ne pas sauter de ligne dans le fichier robots.txt
- En cas d’absence de robots.txt (= si on veut que le moteur suive tous les liens, indexe tout), le moteur le cherche (ce qui entraîne, dans les logs, une erreur 404). Ne le trouvant pas, il ne perd pas son temps à l’analyser. On peut toutefois le mettre quand même si on veut « faire propre ».
Exemple :
# Commentaire User-agent: * # A quel moteur s'applique la règle. * = tous les moteurs Disallow: /scripts/ # Interdit la visite à tout le contenu du répertoire scripts Disallow: /membres/inscription.php # Interdit la visite à la page inscription.php # un groupe User-agent par moteur
La balise meta robots
- Elle n’est pas suivie par tous les robots ; privilégier le robots.txt
- On doit la mettre sur toutes les pages du site !
- Syntaxe :
page indexée, liens suivis :<metaname="robots" content="index, follow">
<meta name="robots" content="all">
page indexée, liens non suivis :
<metaname="robots" content="index, nofollow">
page non indexée, liens suivis :
<metaname="robots" content="noindex, follow">
page non indexée, liens non suivis :
<metaname="robots" content="noindex, nofollow">
<meta name="robots" content="none">