Sie denken, dass Sie die Disallow-Regeln in Ihre Roboter einfügen.txt verhindert, dass Ihre Website in den Suchmaschinen angezeigt wird. Sie platzieren also Folgendes in Ihren Robotern.txt-Datei zum Blockieren von Webcrawlern:

 robots txt verbieten

 die Spinne wird kriechen
Dies sollte alle Roboter daran hindern, richtig zu kriechen? … irren Sie sich richtig. Und dann stellen Sie zu einem späteren Zeitpunkt fest, dass Ihre Seiten irgendwie immer noch in Google oder Bing angezeigt werden. Nicht gut, Sie waren noch nicht bereit mit Ihrem neuen Website-Design, und jetzt ist es in den Suchmaschinen aufgeführt. Was ist hier los?

indexed by crawlers block

Es gibt einige Konzepte zu verstehen, und das erste ist der Unterschied zwischen der Auflistung in den Suchmaschinenergebnissen und der tatsächlichen Indizierung. Da wir oft denken, dass unsere Website indiziert werden muss, bevor sie Webcrawler blockiert und nicht in den Suchergebnissen angezeigt wird, oder? Nun, nicht genau.

 Nish StephenNishanth Stephen Google kann immer noch entscheiden, die Website basierend auf externen Informationen wie eingehenden Links zu crawlen und schließlich zu indizieren, dass es relevant ist.

Denken Sie daran, dass es viele Möglichkeiten gibt, URLs im Internet zu entdecken und zu crawlen. Einschließlich natürlich einer der offensichtlichsten, die Entdeckung über Links, die auf Ihre URL. Also auch wenn die Roboter.die TXT-Datei hat diesen Roboterspinnen gesagt, dass sie dem Verbot, das Sie in die Datei einfügen, gehorchen sollen. Google macht diesen Punkt sehr deutlich, lesen Sie hier mehr: http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449

Matt Cutts erklärt ungekratzte URLs in den Suchergebnissen

Wenn Follow-Links auf Ihre URL verweisen, folgt Google diesen Links. Die URL wird also weiterhin in den Suchergebnissen angezeigt. Je nachdem, welche Suche Sie durchgeführt haben, wird sie möglicherweise in Ihren Suchergebnissen angezeigt, wird jedoch möglicherweise nicht indiziert. Hier ist eine großartige Anleitung von Joost de Valk, um sicherzustellen, dass Ihre URLs nicht indiziert werden.

Infografik schnelle Tipps zum Blockieren von Webcrawlern

.Webcrawler-Roboter blockieren.txt

In Robotern nicht zulassen.txt Crawler zu blockieren

Was passiert eigentlich, wenn wir die Roboter verwenden.txt-Datei zum Blockieren von Robotern. Wie Sie in diesem Bild sehen können, erfahren Sie, warum keine Beschreibung verfügbar ist. Die Website-URL wird weiterhin erkannt, die Beschreibung wird jedoch nicht angezeigt.

Google Snippet blockierte Roboter txt

Barry Schwartz berichtete über ein beschreibendes Such-Snippet, wenn es von den Robotern blockiert wurde.txt-Datei. Google hat bereits 2012 damit begonnen, diese beschreibenden Such-Snippets anzuzeigen, wenn kein beschreibendes Ergebnis angezeigt werden kann.

Es wird häufig missverstanden, dass die Verwendung dieses Ansatzes verhindert, dass Ihre Website in die Suchergebnisse gelangt. Da Sie den Crawler jedoch tatsächlich daran hindern, auf die URL zuzugreifen, bedeutet dies nur, dass er nicht beschreiben kann, was sich auf dieser Seite befindet.

 Sha MenzSha Menz Auf den Punkt gebracht – Das Verriegeln der Haustür hält die Leute nicht davon ab, in ein offenes Fenster zu klettern 🙂

Mein Lieblingsbeitrag aller Zeiten wurde vor sehr langer Zeit von Lindsay Wassell geschrieben, gilt aber immer noch https://moz.com/blog/restricting-robot-access-for-improved-seo

** Achten Sie darauf, nofollow nicht ohne sorgfältiges Nachdenken zu verwenden

Es ist auch bekannt, dass die Seite auf Ihrer Website indiziert wird, wenn Ihre Seite geteilt wird, und wie von Tony unten von G + Buttons erwähnt

 Tony McCreath Tony McCreath Ich erinnere mich, dass Google irgendwann erklärte, dass sie diese überschreiben würden anfragen, wenn andere Signale widersprachen. Es war das Vorhandensein einer G + -Taste. Andere Dinge wie Kanonisierung können auch Dinge verwirren.

Roboter.txt verbietet den Zugriff auf eine URL, verhindert jedoch nicht, dass sie dem Suchindex hinzugefügt wird. Es stoppt nur die Verwendung seines Inhalts. Mit dem Noindex-Meta-Tag wird eine Seite gecrawlt und technisch indiziert, soll jedoch nicht in den Suchergebnissen angezeigt werden. Nofollow ist eine andere Sache.

Eine zuverlässigere Methode, um sicherzustellen, dass Ihre URL nicht in den Suchergebnissen angezeigt wird, ist die Verwendung des meta robots noindex-Tags.

Meta Robots Tag zum Stoppen der URL-Auflistung

Um sicherzustellen, dass Ihre Seiten nicht in den Suchmaschinen angezeigt werden, müssen Sie sorgfältig über die Indizierung nachdenken. Verhindern Sie also, dass Ihre URL in den Suchergebnissen aufgeführt wird, indem Sie das Meta Robots-Tag verwenden. Wie diese:

 meta robots Tag noindex nofollow

Ich verwende das folgende Tag, damit Suchmaschinen Link-Tags folgen und übergeben können, aber noindex die Seiten:

 meta robots tag noindex folgen

 John S. BritsiosJohn S. Britsios Der einzige Unterschied zwischen Robotern.txt und meta noindex,nofollow ist, dass die Bots mit Robotern überhaupt nicht auf die Seite zugreifen können und mit dem Meta auf die Seite zugreifen können, aber keine Informationen über die Links der Seite weitergeben können. Und die zweite Option erstellt baumelnde Seiten (Knoten). Wenn Sie die Meta-Direktiven verwenden, sollten Sie noindex ,follow . Dann werden Sie die Dinge richtig haben.

Wenn auf Ihrer Site kein Meta Robots-Tag angegeben ist, wird standardmäßig index, follow . Was im Wesentlichen dasselbe ist wie die Angabe dieses Tags:

Meta-Roboter-Tag-Index folgen

 danny sullivanWeitere Informationen finden Sie im Detail. Danny Sullivans Leitfaden: Meta Robots Tag 101

Danny sagte: Das Meta Robots-Tag war ein offener Standard, der vor über einem Jahrzehnt erstellt wurde und ursprünglich dazu gedacht war, Seitenautoren die Indizierung von Seiten zu verhindern. Im Laufe der Jahre haben verschiedene Suchmaschinen dem Tag zusätzliche Unterstützung hinzugefügt.

Der X-Robots-Tag HTTP Header

Eine weitere einfachere Möglichkeit, dies auf siteweiter Ebene zu implementieren, ist die Verwendung des X-Robots-Tag HTTP Headers. Sie fügen diese zu Ihrem .htaccess-Datei:

Dies funktioniert für Apache-Server mit aktiviertem mod_headers. Sobald diese Zeile hinzugefügt wurde, funktioniert sie für die gesamte Site.

Dies bedeutet wiederum, dass die Site effektiv indiziert ist, jedoch nicht in den Suchergebnissen angezeigt wird.

Kennwortschutz zum Blockieren von Webcrawlern

Wenn Sie wirklich verhindern möchten, dass Webcrawler auf Ihre Website zugreifen und diese indizieren und in den Suchergebnissen angezeigt werden, schützen Sie Ihre Website mit einem Kennwort. Es ist ziemlich einfach, a zu implementieren.htaccess-Passwort, damit kein Crawler fortfahren kann. Dadurch wird sichergestellt, dass nichts Passwortgeschütztes gecrawlt wird und niemals in den Index aufgenommen wird.

 Dawn AndersonDawn Anderson XML Sitemaps und andere interne Links. Links zu Testseiten scheinen Bereiche zu sein, in denen Sie dies häufig sehen. Am besten blockieren Sie Testseiten entweder mit Passwort-Login oder IP-Einschlusslisten, die in Konfigurationsdateien definiert sind. Natürlich, wenn dynamische IPs in der Mischung sind, wird es ein bisschen problematischer

Weitere verwandte Crawling- und Indexierungsressourcen

Das Verständnis von Robotern und Crawlern und viele der feineren Details, wie diese Crawl-Theorie funktioniert, kann Ihnen als SEO einen Vorteil verschaffen. Hier sind einige Links zu großartigen Ressourcen, um mehr zu erfahren:

  • Google’s Robots meta Tag und X-Robots-Tag HTTP Header Spezifikationen
  • Crawling Efficiencey auf SEMrush von Dawn Aderson
  • Google Webmasters hangouts

Peter Mead teilt über 20 Jahre Erfahrung im digitalen Bereich und als WordPress SEO Consultant. Peter schöpft weiteres Wissen und Erfahrung aus seinem Engagement als SEMrush-Webinar-Host und Mitorganisator des Melbourne SEO Meetup. Schreiben von Artikeln basierend auf seiner praktischen analytischen und strategischen Erfahrung. Peter ist leidenschaftlich daran interessiert, zum Kundenerfolg und zur Verbesserung der breiteren SEO-Community beizutragen.

Peter ist auf einigen dieser Websites zu finden:

Hosting des SEMrush Australian Search Marketing Academy Webinars: https://www.semrush.com/user/145846945/
WordPress SEO Consultant: Peter Mead iT https://petermead.com/
Mitorganisator: Melbourne SEO Meetup https://www.meetup.com/Melbourne-SEO/

Weitere Informationen zu Peter Mead

Leave a comment

Deine E-Mail-Adresse wird nicht veröffentlicht.