Vous pensez que mettre les règles d’interdiction dans vos robots.txt empêchera votre site d’apparaître dans les moteurs de recherche. Vous placez donc ce qui suit dans vos robots.fichier txt pour bloquer les robots d’exploration Web:

 les robots txt interdisent

 l'araignée rampera
Cela devrait empêcher tous les robots de ramper, n’est-ce pas? er err droit. Et puis vous découvrez à un stade ultérieur que vos pages apparaissent toujours dans Google ou Bing. Pas bon, vous n’étiez pas encore prêt avec la conception de votre nouveau site, et maintenant il est répertorié dans les moteurs de recherche. Que se passe-t-il ici ?

 indexé par le bloc crawlers

Il y a quelques concepts à comprendre, et le premier est la différence entre être répertorié dans les résultats du moteur de recherche et celui d’être réellement indexé. Puisque nous pensons souvent que nous avons besoin que notre site soit indexé avant qu’il ne bloque les robots d’exploration Web et n’apparaisse pas dans les résultats de recherche, n’est-ce pas? Eh bien pas exactement.

 Nish Stephen Nishanth Stephen Google peut toujours décider d’explorer et éventuellement indexer le site en fonction d’informations externes telles que les liens entrants, qu’il est pertinent.

Rappelez-vous qu’il existe de nombreuses façons de découvrir et d’explorer les URL sur Internet. Y compris bien sûr l’un des plus évidents qui est la découverte via des liens pointant vers votre URL. Donc, même si les robots.le fichier txt a dit à ces robots araignées d’obéir à l’interdiction que vous mettez dans le fichier, votre URL peut toujours être indexée. Google rend ce point très clair, en savoir plus ici: http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449

Matt Cutts explique les URL non tracées dans les résultats de recherche

S’il existe des liens de suivi pointant vers votre URL, Google suit ces liens. L’URL apparaît donc toujours dans les résultats de recherche. Il peut donc apparaître dans vos résultats de recherche, en fonction de la recherche que vous avez effectuée, mais il peut ne pas être réellement indexé. Voici un excellent guide de Joost de Valk, pour vous aider à vous assurer que vos URL ne sont pas indexées.

Astuces infographiques pour bloquer les robots d’exploration Web

. bloquer les robots d'exploration web.txt

Interdire dans les robots.txt pour bloquer les robots

Ce qui se passe réellement lorsque nous utilisons les robots.fichier txt pour bloquer les robots. Comme vous pouvez le voir sur cette image, il vous explique pourquoi une description n’est pas disponible. L’url du site Web est toujours découverte mais elle n’affiche pas la description.

 google snippet blocked robots txt

Barry Schwartz a rendu compte d’un extrait de recherche descriptif lorsqu’il est bloqué par les robots.fichier txt. Google a commencé à afficher ces extraits de recherche descriptifs lorsqu’il ne pouvait pas afficher de résultat descriptif, en 2012.

Il est généralement mal compris que l’utilisation de cette approche empêchera votre site d’entrer dans les résultats de recherche. Cependant, puisque vous bloquez réellement le robot d’exploration d’accéder à l’URL, cela signifie simplement qu’il ne peut pas décrire ce qui se trouve sur cette page.

 Sha Menz Sha Menz En un mot – Verrouiller la porte d’entrée n’empêche pas les gens de grimper dans une fenêtre ouverte 🙂

Mon article préféré de tous les temps a été écrit par Lindsay Wassell il y a très longtemps, mais reste vrai https://moz.com/blog/restricting-robot-access-for-improved-seo

** Veillez à ne pas utiliser nofollow sans y réfléchir attentivement

Il est également connu que la page de votre site est indexée lorsque votre page est partagée, et comme mentionné par Tony ci-dessous par les boutons G+

 Tony McCreath Tony McCreath Je me souviens qu’à un moment donné, Google a déclaré qu’ils remplaceraient ces demandes si d’autres signaux sont en contradiction. C’était la présence d’un bouton G+. D’autres choses comme la canonisation peuvent également confondre les choses.

Robots.txt interdit l’accès à une URL, cela ne l’empêche pas d’être ajouté à l’index de recherche. Il arrête simplement l’utilisation de son contenu. La balise meta noindex permet à une page d’être explorée et techniquement, elle est indexée, mais elle ne doit pas être affichée dans les résultats de recherche. Nofollow est une chose différente.

Un moyen plus fiable de s’assurer que votre URL n’apparaît pas dans les résultats de recherche consiste à utiliser la balise meta robots noindex.

Balise Meta robots pour arrêter la liste des URL

Pour vous assurer que vos pages n’apparaissent pas dans les moteurs de recherche, vous devrez bien réfléchir à leur indexation. Donc, empêcher la liste de votre URL dans les résultats de recherche consiste à utiliser la balise meta robots. Comme ça:

 balise meta robots noindex nofollow

J’utiliserai la balise ci-dessous pour permettre aux moteurs de recherche de suivre et de transmettre l’équité des liens, mais noindex les pages:

 balise meta robots noindex suivre

 John S. Britsios John S. Britsios La seule différence entre les robots.txt et meta noindex, nofollow est qu’avec les robots, les robots ne peuvent pas du tout accéder à la page et avec la méta, ils peuvent accéder à la page mais ne peuvent pas passer l’équité à travers les liens de la page. Et la deuxième option crée des pages pendantes (nœuds). Si vous utilisez les directives meta, vous devez utiliser noindex, suivez. Ensuite, vous aurez les choses bien.

Si vous n’avez aucune balise meta robots spécifiée sur votre site, elle sera par défaut indexée, suivez. Ce qui revient essentiellement à spécifier cette balise:

 index des balises meta robots suivre

 danny sullivan Plus d’informations peuvent être trouvées en détail. Guide de Danny Sullivan: Balise Meta Robots 101

Danny a déclaré: La balise meta robots était une norme ouverte créée il y a plus de dix ans et conçue initialement pour permettre aux auteurs de pages d’empêcher l’indexation des pages. Au fil des ans, divers moteurs de recherche ont ajouté un support supplémentaire à la balise.

L’en-tête HTTP X-Robots-Tag

Une autre façon plus simple de l’implémenter au niveau du site est d’utiliser l’en-tête HTTP X-Robots-Tag. Vous ajoutez cela à votre.fichier htaccess:

Cela fonctionne pour les serveurs Apache avec les mod_headers activés. Une fois cette ligne ajoutée, elle fonctionnera pour l’ensemble du site.

Encore une fois, cela signifie que le site est effectivement indexé, mais n’apparaît pas dans les résultats de recherche.

Protection par mot de passe pour bloquer les robots d’exploration Web

Si vous souhaitez vraiment empêcher les robots d’indexation d’accéder à votre site et d’apparaître dans les résultats des résultats de recherche, protégez votre site par mot de passe. Il est assez facile de mettre en œuvre un.mot de passe htaccess afin qu’aucun robot ne puisse continuer. Cela garantira que rien de ce qui est protégé par mot de passe ne sera exploré et ne figurera jamais dans l’index.

 Dawn Anderson Dawn Anderson XML sitemaps et autres liens internes. Les liens vers des sites de test semblent être des domaines où vous voyez cela beaucoup. Il est préférable de bloquer les sites de test avec des listes de connexion par mot de passe ou d’inclusion IP définies dans les fichiers de configuration. Bien sûr, si des adresses IP dynamiques sont dans le mélange, cela devient un peu plus problématique

Des ressources d’exploration et d’indexation plus connexes

Comprendre les robots et les robots d’exploration, et de nombreux détails plus fins sur le fonctionnement de ces théories d’exploration, peut vous donner un avantage en tant que SEO. Voici quelques liens vers d’excellentes ressources pour en savoir plus:

  • Spécifications de l’en-tête HTTP des balises meta et X-Robots-Tag de Google
  • Efficacité de l’analyse sur SEMrush par Dawn Aderson
  • Hangouts des Webmasters de Google

Peter Mead partage plus de 20 ans d’expérience en Digital et en tant que consultant SEO WordPress. Peter tire davantage de connaissances et d’expérience de son implication en tant qu’hôte de webinaires SEMrush et co-organisateur de Melbourne SEO Meetup. Rédaction d’articles basés sur son expérience analytique et stratégique pratique. Peter est passionné par la contribution à la réussite des clients et à l’amélioration de la communauté SEO au sens large.

Peter peut être trouvé sur certains de ces sites:

Hébergement du webinaire de la SEMrush Australian Search Marketing Academy: https://www.semrush.com/user/145846945/
Consultant SEO WordPress: Peter Mead iT https://petermead.com/
Co-Organisateur: Melbourne SEO Meetup https://www.meetup.com/Melbourne-SEO/

Plus d’informations sur Peter Mead

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.