Google va arrêter de prendre en compte le noindex, le nofollow et le crawl-delay dans les fichiers robots.txt à partir du 1er septembre 2019

Après 25 ans d'existence, les robots.txt pourraient enfin devenir un standard du web. Google veut un standard officiel pour le protocole d’interprétation du fichier robots.txt, utilisé par les webmasters pour fixer les règles d’exploration suivies par les crawlers (REP, Robots Exclusion Protocol).

En parallèle, Google annonce la fin de l’interprétation, par ses bots, de plusieurs déclarations utilisées par certains webmasters – notamment crawl-delay, noindex et nofollow.

Comment éviter l’indexation de pages web sur Google

Officiellement Google a annoncé que GoogleBot n’obéirait plus à une directive Robots.txt relative à l’indexation. Les webmasters qui s’appuient sur la directive robots.txt noindex ont jusqu’au 1er septembre 2019 pour la supprimer et commencer à utiliser d’autres moyens:

  • Ajouter le noindex dans les meta tags de la page (meilleure solution)
  • Les codes HTTP 404 et 410 signifient que la page n’existe pas, les crawlers de Google le comprennent et suppriment ces pages de son index.
  • Les pages placées derrière un paywall – et celles qui nécessitent un mot de passe – sont « en général » supprimées dans l’index de Google.
  • Google n’indexe que les pages qu’il connaît, mettre une page ou un répertoire en disallow via le robots.txt reste donc une possibilité. Google pourra toujours indexer une page s’il repère un lien vers cette page, mais précise que ces pages en disallow via le robots.txt seront moins visibles sur Google à l’avenir.
  • Vous pouvez également utiliser la Search Console pour supprimer une URL qui n’a rien à faire sur Google.