Crees que poniendo las reglas de no permitir en tus robots.txt evitará que tu sitio aparezca en los motores de búsqueda. Así que coloca lo siguiente en sus robots.archivo txt para bloquear rastreadores web:

robots txt no permitir

la araña se arrastrará
Esto debería impedir que todos los robots se arrastren, ¿verdad? … err derecho. Y luego descubres en una etapa posterior que tus páginas siguen apareciendo de alguna manera en Google o Bing. No es bueno, aún no estabas listo con el nuevo diseño de tu sitio, y ahora está listado en los motores de búsqueda. ¿Qué está pasando aquí?

 indexado por bloque de rastreadores

Hay algunos conceptos que entender, y el primero es la diferencia entre estar listado en los resultados del motor de búsqueda y el de estar realmente indexado. Ya que a menudo pensamos que necesitamos que nuestro sitio sea indexado antes de que bloquee los rastreadores web y no aparezca en los resultados de búsqueda, ¿verdad? Bueno, no exactamente.

Nish Stephen Nishanth Stephen Google todavía puede decidir rastrear y eventualmente indexar el sitio en función de información externa, como enlaces entrantes, que sea relevante.

Recuerde que hay muchas maneras de descubrir y rastrear las URL en Internet. Incluyendo, por supuesto, uno de los más obvios, que es el descubrimiento a través de enlaces que apuntan a su URL. Así que incluso si los robots.el archivo txt le ha dicho a esas arañas robot que obedezcan el rechazo que puso en el archivo, su URL aún puede indexarse. Google deja muy claro este punto, lee más aquí: http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449

Matt Cutts explica las URL sin dibujar en los resultados de búsqueda

Si hay enlaces de seguimiento que apuntan a tu URL, Google sigue esos enlaces. Por lo tanto, la URL sigue apareciendo en los resultados de búsqueda. Por lo tanto, puede aparecer en los resultados de búsqueda, dependiendo de la búsqueda que haya realizado, pero es posible que en realidad no esté indexada. Aquí hay una gran guía de Joost de Valk, para ayudarlo a asegurarse de que sus URL no se indexen.

Consejos rápidos de infografía cómo bloquear rastreadores web

. bloquear robots rastreadores web.txt

No permitir en robots.txt para bloquear rastreadores

Lo que realmente sucede cuando usamos los robots.archivo txt para bloquear robots. Como puede ver en esta imagen, le dice por qué no hay una descripción disponible. La url del sitio web todavía se descubre, pero no muestra la descripción.

 google snippet robots bloqueados txt

Barry Schwartz informó sobre un fragmento de búsqueda descriptivo para cuando los robots lo bloquearon.archivo txt. Google comenzó a mostrar estos fragmentos de búsqueda descriptivos para cuando no puede mostrar un resultado descciptivo, en 2012.

Comúnmente se malinterpreta que el uso de este enfoque evitará que su sitio entre en los resultados de búsqueda. Sin embargo, dado que en realidad está bloqueando el acceso del rastreador a la URL, solo significa que no puede describir lo que hay en esa página.

Sha Menz Sha Menz En pocas palabras: Cerrar la puerta principal no impide que la gente suba por una ventana abierta 🙂

Mi artículo favorito de todos los tiempos fue escrito por Lindsay Wassell hace mucho tiempo, pero sigue siendo cierto https://moz.com/blog/restricting-robot-access-for-improved-seo

**Tenga cuidado de no usar nofollow sin pensar cuidadosamente

También se sabe que la página de su sitio se indexa cuando se comparte su página, y como menciona Tony a continuación con los botones G+

Tony McCreath Tony McCreath Recuerdo que en algún momento Google declaró que anularía estos peticiones si se contradicen otras señales. Era la presencia de un botón G+. Otras cosas, como la canonicalización, también pueden confundir las cosas.

Robots.txt no permite el acceso a una URL, no impide que se agregue al índice de búsqueda. Simplemente deja de usar su contenido. La meta etiqueta noindex permite rastrear una página y técnicamente está indexada, pero no debe mostrarse en los resultados de búsqueda. Nofollow es una cosa diferente.

Una forma más confiable de asegurarse de que su URL no aparezca en los resultados de búsqueda es utilizando la etiqueta noindex de meta robots.

Etiqueta Meta robots para detener el listado de URL

Para asegurarse de que sus páginas no aparezcan en los motores de búsqueda, deberá pensar cuidadosamente en indexarlas. Por lo tanto, evitar que aparezca tu URL en los resultados de búsqueda es usar la etiqueta meta robots. Así:

meta robots etiqueta noindex nofollow

Usaré la etiqueta de abajo para permitir que los motores de búsqueda sigan y pasen la equidad de enlace, pero no indiquemos las páginas:

meta robots tag noindex seguir

John S. Britsios John S. Britsios La única diferencia entre robots.txt y meta noindex, nofollow es, que con robots los bots no pueden acceder a la página en absoluto y con el meta pueden acceder a la página pero no pueden pasar equidad a través de los enlaces de la página. Y la segunda opción crea páginas colgantes (nodos). Si usa las directivas meta, debe usar noindex,siga. Entonces tendrás las cosas bien.

Si no tiene ninguna etiqueta de meta robots especificada en su sitio, por defecto, indexará, siga. Que es esencialmente lo mismo que especificar esta etiqueta:

 índice de etiquetas de meta robots seguir

danny sullivanPuede encontrar más información en detalle. Guía de Danny Sullivan: Etiqueta Meta Robots 101

Danny dijo: La etiqueta meta robots era un estándar abierto creado hace más de una década y diseñado inicialmente para permitir a los autores de páginas evitar la indexación de páginas. A lo largo de los años, varios motores de búsqueda han agregado soporte adicional a la etiqueta.

El encabezado HTTP X-Robots-Tag

Otra forma más fácil de implementar esto a nivel de todo el sitio es usar el encabezado HTTP X-Robots-Tag. Agrega esto a tu .archivo htaccess:

Esto funciona para servidores Apache con mod_headers habilitados. Una vez que se agrega esta línea, funcionará para todo el sitio.

De nuevo, lo que esto significa es que el sitio está indexado de manera efectiva, pero no aparece en los resultados de búsqueda.

Protección con contraseña para bloquear rastreadores web

Si realmente desea bloquear los rastreadores web para que no accedan a su sitio, lo indexen y se muestre en los resultados de la búsqueda, proteja su sitio con contraseña. Es bastante fácil de implementar .contraseña de htaccess para que ningún rastreador pueda continuar. Esto asegurará que nada que esté protegido con contraseña se rastree y nunca llegue al índice.

Dawn Anderson Mapas de sitio XML de Dawn Anderson y otros enlaces internos. Los enlaces a sitios de prueba parecen ser áreas donde se ve esto mucho. Lo mejor es bloquear los sitios de prueba con una contraseña de inicio de sesión o listas de inclusión de IP definidas en archivos de configuración. Por supuesto, si las IP dinámicas están en la mezcla, se vuelve un poco más problemático

Más recursos de rastreo e indexación relacionados

Comprender robots y rastreadores, y muchos de los detalles más finos de cómo funciona esta teoría de rastreo, puede darle una ventaja como SEO. Aquí hay algunos enlaces a excelentes recursos para obtener más información:

  • Especificaciones de encabezado HTTP de etiquetas meta y etiquetas X-Robots de Google
  • Eficiencia de rastreo en SEMrush de Dawn Aderson
  • Hangouts para Webmasters de Google

Peter Mead comparte más de 20 años de experiencia en Digital y como Consultor SEO de WordPress. Peter obtiene más conocimiento y experiencia de su participación como anfitrión de seminarios web de SEMrush y coorganizador de Melbourne SEO Meetup. Escribir artículos basados en su experiencia práctica analítica y estratégica. A Peter le apasiona contribuir al éxito de los clientes y a la mejora de la comunidad SEO en general.

Peter se puede encontrar en algunos de estos sitios:

Organizando el seminario Web SEMrush Australian Search Marketing Academy: https://www.semrush.com/user/145846945/
Consultor SEO de WordPress: Peter Mead It https://petermead.com/
Coorganizador: Melbourne SEO Meetup https://www.meetup.com/Melbourne-SEO/

Más información sobre Peter Mead

Dejar un comentario

Tu dirección de correo electrónico no será publicada.