Google va arrêter de prendre en compte le noindex, le nofollow et le crawl-delay dans les fichiers robots.txt à partir du 1er septembre 2019
Après 25 ans d'existence, les robots.txt pourraient enfin devenir un standard du web. Google veut un standard officiel pour le protocole d’interprétation du fichier robots.txt, utilisé par les webmasters pour fixer les règles d’exploration suivies par les crawlers (REP, Robots Exclusion Protocol).
Happy 25th birthday, robots.txt! You make the Internet a better place. You're the real MVP! pic.twitter.com/vxvZTcHpR3
— Google Webmasters (@googlewmc) 1 juillet 2019
En parallèle, Google annonce la fin de l’interprétation, par ses bots, de plusieurs déclarations utilisées par certains webmasters – notamment crawl-delay, noindex et nofollow.
Today we're saying goodbye to undocumented and unsupported rules in robots.txt 👋
— Google Webmasters (@googlewmc) 2 juillet 2019
If you were relying on these rules, learn about your options in our blog post.https://t.co/Go39kmFPLT
Comment éviter l’indexation de pages web sur Google
Officiellement Google a annoncé que GoogleBot n’obéirait plus à une directive Robots.txt relative à l’indexation. Les webmasters qui s’appuient sur la directive robots.txt noindex ont jusqu’au 1er septembre 2019 pour la supprimer et commencer à utiliser d’autres moyens:
- Ajouter le noindex dans les meta tags de la page (meilleure solution)
- Les codes HTTP 404 et 410 signifient que la page n’existe pas, les crawlers de Google le comprennent et suppriment ces pages de son index.
- Les pages placées derrière un paywall – et celles qui nécessitent un mot de passe – sont « en général » supprimées dans l’index de Google.
- Google n’indexe que les pages qu’il connaît, mettre une page ou un répertoire en disallow via le robots.txt reste donc une possibilité. Google pourra toujours indexer une page s’il repère un lien vers cette page, mais précise que ces pages en disallow via le robots.txt seront moins visibles sur Google à l’avenir.
- Vous pouvez également utiliser la Search Console pour supprimer une URL qui n’a rien à faire sur Google.