Le fichier robots.txt vous permet d’indiquer aux robots d’indexation “honnêtes” quelles parties du site, ils sont autorisés à télécharger pour en analyser le contenu. Placé à la racine du site, le fichier robots.txt est le premier lieu visité par le crawler quand il vient vérifier votre site. Il y prend les indications et équipé aussi du sitemap, il parcourt votre site à la recherche de nouveaux liens internes en partant de la racine ).

Voilà pour un crawler sans mauvaise attention. Par contre, un robot cherchant la faille ne respectera pas ce fichier robots.txt. Ainsi, il ne faut surtout pas penser que ce fichier servira à protéger votre site. Que nenni ! C’est uniquement une information à l’attention des honnêtes robots.

Est-ce alors nécessaire d’avoir un robots.txt ?

Il n’est pas obligatoire, mais il vous évitera d’avoir l’intégralité de votre site indexé, dont la partie Admin… Est-ce que vous partez en vacances, en distribuant le plan détaillé de votre maison à la volée ? Eh bien là, c’est un peu la même chose.

D’autre part, avec le fichier robot.txt, vous pouvez aussi bloquer l’indexation d’une page ou un bloc de votre site en construction. Et ça, c’est utile, surtout si après le test d’un plugin par exemple, vous vous rendez compte que celui-ci ne vous convient pas. Ainsi, en bloquant les pages qu’il génère dès sa mise en application, vous n’avez pas ensuite à rediriger les pages détruites et à pratiquer maintes manipulations pour que les robots oublient ces pages. Si vous doutez encore, après quelques tests de plugins  infructueux, vous serez convaincu.

Comment faire un fichier robots.txt ?

Un fichier robots.txt ressemble à celui ci-dessous :

 User-agent: *
    # On empêche l'indexation des dossiers sensibles
    Disallow: /admin/
    Disallow: /admin
    Disallow: */comments
    Disallow: /*?
    # On empêche l'indexation des fichiers sensibles
    User-agent: Googlebot
    Disallow: /*.php$
    Disallow: /*.css$
    # Autoriser Google Image
    User-agent: Googlebot-Image
    Disallow:
    Allow: /*
    # Autoriser Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*
  • 1ère ligne :  user-agent sert à indiquer qui est concerné par le fichier. L’étoile * indique que tous les moteurs sont concernés. On aurait pu indiquer que Googlebot par exemple.
  • Dans les lignes suivantes, vous indiquez ce qui est autorisé (Allow) ou pas (Disallow) à être explorer : cela peut être une Url, un dossier et l’ensemble de son contenu, un type de fichiers…
  • /admin/ = interdiction d’explorer et indexer le contenu du répertoire admin
  • /admin = interdiction d’explorer et indexer tout fichier nommé admin : admin.jpg, admin.php…
  • /admin/index.html = interdiction d’explorer et indexer la page index du dossier admin
  • /*.css = interdiction d’explorer et indexer tous les fichiers de type .css
  • / = interdiction d’explorer et indexer l’ensemble du site
  • Pour écrire un commentaire, la ligne doit commencer par un #.
  • Il ne faut pas laisser de ligne vierge dans le code.

Vous pouvez créer votre fichier robots.txt avec le bloc-notes de votre ordinateur ou notepad++. Faites le plus simple possible pour éviter les erreurs. Sinon, il est préférable pour les amateurs de confier cette tâche à un plugin.

Ajout du 21/08/2014 – Conseils à l’usage

  • Après avoir modifier le fichier robots.txt, contrôlez régulièrement les statistiques de votre site. Si vous avez bloqué une catégorie de pages ou des pages, vous pouvez voir voir taux de rebond chuté. Dans ce cas, supprimez le blocage s’il n’est pas essentiel à la sécurité de votre site.

Ajout du 13/03/2015 : un exemple concret pour wordpress…

  User-agent: *
 # On empêche l'indexation des dossiers sensibles
 Disallow: /cgi-bin
 Disallow: /wp-login.php
 Disallow: /wp-admin
 Disallow: /wp-includes
 Disallow: /wp-content/plugins
 Disallow: /wp-content/cache
 Disallow: /wp-content/themes
 Disallow: /category/*/*
 Disallow: */trackback
 Disallow: */feed
 Disallow: */comments
 Disallow: /*?
 # On empêche l'indexation des fichiers sensibles
 User-agent: Googlebot
 Disallow: /*.php$
 Disallow: /*.js$
 Disallow: /*.inc$
 Disallow: /*.css$
 Disallow: /*.gz$
 Disallow: /*.swf$
 Disallow: /*.wmv$
 Disallow: /*.cgi$
 Disallow: /*.xhtml$
 # Autoriser Google Image
 User-agent: Googlebot-Image
 Disallow:
 Allow: /*
 # Autoriser Google AdSense
 User-agent: Mediapartners-Google*
 Disallow:
 Allow: /*
 # On indique au spider le lien vers notre sitemap
 Sitemap: http://***Ajouter l'adresse de votre sitemap****