Plusieurs raisons peuvent expliquer l'absence d'une page dans les résultats remontés par Google.

Lorsque vous mettez en ligne votre site internet, il est possible qu'il n'apparaisse pas immédiatement dans les résultats remontés par le moteur de recherche Google. Il faut en effet du temps avant que les robots du moteur de recherche parcourent et indexent le site. Si ce n'est toujours pas le cas au bout de plusieurs jours, il existe plusieurs contrôles et procédés pour vérifier que votre site doit être correctement indexé.

La non indexation de certains sites web peut être due:

  1. Google ne trouve pas votre site tout neuf Si vous avez publié votre site aujourd’hui ou il y a quelques jours et qu’il n’apparait pas encore sur les moteurs de recherche, cela est tout à fait normal. Ce « problème » peut être classique pour les nouveaux sites, Google pouvant mettre plusieurs jours avant de les répertorier.
  2. Un fichier htaccess bloque le site C’est un fichier de configuration des serveurs HTTP Apache. Parfois, il peut être nécessaire de protéger l’accès à un répertoire sur un serveur web pour éviter que n’importe qui puisse y accéder. Pour cela un bout de code est placé dans le fichier .htaccess qui permet de bloquer l’affichage d’une page en obligeant la saisie d’un login et d’un mot de passe : htpasswd. Ce fichier envoie un code HTTP 401 (« une authentification est nécessaire pour accéder à la ressource ») aux robots des moteurs de recherche leur indiquant de ne pas indexer le site dans son intégralité.
  3. Le fichier Robots.txt bloque votre site Dans tout site Internet, il doit exister un fichier qui est à la racine du site et qui est accessible très facilement si les robots décident de le visiter. C’est le fichier robots.txt. En effet, ce fichier est fait pour les robots, et ces derniers sont sensés le visiter en premier lorsqu’ils effectuent une visite du site. Il n’est pas toujours nécessaire d’indexer la totalité des pages de votre site car certaines pages ne sont pas faites pour êtres rendues publiques. Le fichier robots.txt peut donc ordonner au robot de Google de ne pas indexer les pages que vous ne souhaitez pas rendre publiques.
  4. Vos URLs sont bloquées par une balise META Il est possible d’empêcher une page de s’afficher dans les résultats de recherche Google en incluant une balise Meta noindex dans son code HTML. Il faut donc bien vérifier que vous n’avez pas les attributs noindex, nofollow sur une page ou plusieurs pages de votre site.
  5. Vous n’avez pas mis en place de fichier sitemap.xml Le fichier sitemap permet de fournir un plan du site aux moteurs de recherche. Il peut aider à optimiser son référencement. Ne pas avoir de sitemap.xml peut être à l’origine d’une mauvaise indexation de votre site par Google.
  6. Vous avez des erreurs de crawl Les robots des moteurs de recherche lisent votre site et « sautent » de liens en liens pour continuer à explorer celui-ci. Parfois ils se retrouvent donc dans des impasses ou sur des liens renvoyant vers des pages inexistantes ou déplacées. Votre site a alors une multitude d’erreurs de « crawl » qui sont des erreurs au niveau des URLs.
  7. Du contenu similaire ou dupliqué (duplicate content) Il arrive que de multiples pages d’un même site proposent le même contenu, c’est ce que l’on appel la duplication de contenu (duplicate content). Cela génère des répétitions au niveau des résultats de recherche que Google tente d’éliminer. Si Google rencontre trop de contenus similaires, il peut ainsi ralentir sa fréquence de crawl, voir exclure du site de l’index.
  8. Problèmes avec AJAX/JAVASCRIPT Lorsque les moteurs de recherche peinent à lire le javascript et lorsqu’ils sont bloqués, il s’arrêtent. Dans ce cas, il est impossible de crawler tout ce qui se situe après votre script ( la page, le menu, les autres pages…). Si vous n’avez pas parfaitement configuré vos pages JavaScript, Google peut donc arrêter de lire les données de vos pages et donc limiter l’indexation du site.
  9. Chargement continu ou beaucoup trop lent Le temps de chargement de vos pages peut avoir un impact très important sur les robots, comme nous l’avons précisé précédemment: PageSpeed Insights: le meilleur outil pour préparer votre site web à la Speed Update?. Si Google n’arrive pas à accéder aux différentes pages de votre site, il ne peut pas se mettre « en pause » et attendre. Au contraire, il risque de quitter votre page et continuer son chemin pour aller crawler les autres sites concurrents.
  10. Problème avec votre serveur Google peut avoir les mêmes difficultés à lire les pages de votre site si votre serveur ne peut répondre aux demandes effectuées par le robot pour accéder à l’information. Pour corriger cela, faites en sorte que votre serveur soit solide et puisse supporter le trafic.
  11. Votre site a été désindexé ou pénalisé « Cher propriétaire ou webmaster du site …, Nous avons constaté que certaines pages de votre site semblent faire appel à des techniques contraires aux Consignes Google aux webmasters. Pour toute question relative à la résolution de ce problème, veuillez consulter notre Forum d’aide pour les webmasters, Cordialement, L’équipe Google chargée de la qualité des recherches. » Un cas comme celui-ci est assez rare!

Vous l’avez compris, pour qu’un site soit présent dans les résultats d’un moteur de recherche il faut qu’il soit indexé dans sa base de données. Dans un premier temps Google doit être capable de le trouver grâce à ses robots et il doit ensuite pouvoir le lire. Si votre site ou certaines pages de votre site ne sont pas indexés, vous devriez maintenant comprendre pourquoi. Vous avez à présent tous les éléments pour analyser votre site et faire en sorte qu’il soit bien référencé et positionné!