du tror att sätta disallow regler i dina robotar.txt kommer att stoppa din webbplats visas i sökmotorerna. Så du placerar följande i dina robotar.txt-fil för att blockera sökrobotar:

robots txt disallow

spindeln kommer att krypa
detta borde blockera alla robotar från att krypa rätt? … fel rätt. Och då upptäcker du i ett senare skede att dina sidor fortfarande visas i Google eller Bing. Inte bra, du var inte redo med din nya webbplatsdesign ännu, och nu är den listad i sökmotorerna. Vad händer här?

indexerad av crawlers block

det finns några begrepp att förstå, och den första är skillnaden mellan att vara listad i sökmotorns resultat och att faktiskt indexeras. Eftersom vi ofta tror att vi behöver vår webbplats som ska indexeras innan det kommer att blockera sökrobotar, och inte dyka upp i sökresultaten rätt? Tja inte exakt.

Nish Stephen Nishanth Stephen Google kan fortfarande besluta att genomsöka och så småningom indexera webbplatsen baserat på extern information såsom inkommande länkar, att det är relevant.

kom ihåg att det finns många sätt för webbadresser att upptäckas och genomsökas på internet. Inklusive naturligtvis en av de mest uppenbara som är upptäckt via länkar som pekar på din URL. Så även om robotarna.txt-filen har sagt de robot spindlar att lyda Disallow du sätter i filen, din URL kan fortfarande indexeras. Google gör denna punkt mycket tydlig, Läs mer här: http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449

Matt Cutts förklarar obehandlade webbadresser i sökresultaten

om det finns följ länkar som pekar på din URL, sedan Google följer dessa länkar. Så webbadressen visas fortfarande i sökresultaten. Så det kan dyka upp i dina sökresultat, beroende på vilken sökning du gjorde, men det kanske inte indexeras. Här är en bra guide från Joost De Valk, som hjälper dig att se till att dina webbadresser inte indexeras.

Infographic Snabbtips hur man blockerar sökrobotar

.blockera sökrobotar robotar.txt

Tillåt inte robotar.txt för att blockera sökrobotar

vad som faktiskt händer när vi använder robotarna.txt-fil för att blockera robotar. Som du kan se i den här bilden berättar den varför en beskrivning inte är tillgänglig. Webbadressen är fortfarande upptäckt men den visar inte beskrivningen.

google snippet blockerade robotar txt

Barry Schwartz rapporterade om ett beskrivande sökutdrag för när det blockerades av robotarna.txt-fil. Google började visa dessa beskrivande sökfragment för när det inte kan visa ett beskrivande resultat, tillbaka i 2012.

det är ofta missförstått att använda detta tillvägagångssätt kommer att stoppa din webbplats från att komma in i sökresultaten. Men eftersom du faktiskt blockerar sökroboten från att komma åt webbadressen betyder det bara att det inte kan beskriva vad som finns på den sidan.

Sha MenzSha Menz i ett nötskal-låsning av ytterdörren hindrar inte människor att klättra i ett öppet fönster bisexuell

min favorit inlägg genom tiderna skrevs av Lindsay Wassell för mycket länge sedan, men fortfarande gäller https://moz.com/blog/restricting-robot-access-for-improved-seo

**var försiktig så att du inte använder nofollow utan noggrann tanke

det är också känt att sidan på din webbplats indexeras när din sida delas, och som nämnts av Tony nedan med G + – knappar

Tony McCreath Tony McCreath jag minns någon gång Google uppgav att de skulle åsidosätta dessa begär om andra signaler motsägs. Det var närvaron av en g + – knapp. Andra saker som kanonisering kan också förvirra saker.

robotar.txt tillåter inte åtkomst till en URL, det hindrar inte att den läggs till i sökindexet. Det slutar bara att innehållet används. Noindex-metataggen låter oss en sida genomsökas och tekniskt indexeras den, men den ska inte visas i sökresultaten. Nofollow är en annan sak.

ett mer tillförlitligt sätt att se till att din URL inte visas i sökresultaten är att använda meta robots noindex-taggen.

Meta robots tag för att stoppa URL-listan

för att se till att dina sidor inte visas i sökmotorerna måste du tänka noga på att indexera dem. Så förhindra att din URL listas i sökresultaten är att använda meta robots-taggen. Så här:

meta robots tag noindex nofollow

jag använder nedanstående tagg för att tillåta sökmotorer att följa och passera link equity, men noindex sidorna:

meta robotar tag noindex följ

John S. Britsios John S. Britsios den enda skillnaden mellan robotar.txt och meta noindex, nofollow är att med robotar kan bots inte komma åt sidan alls och med meta kan de komma åt sidan men kan inte passera eget kapital genom länkarna på sidan. Och det andra alternativet skapar dinglande sidor (noder). Om du använder metadirektiven bör du använda noindex, följ. Då kommer du att ha saker rätt.

om du inte har någon meta robots-tagg som anges på din webbplats, kommer den som standard att indexera, följa. Vilket är i huvudsak detsamma som att specificera den här taggen:

 meta robotar tag index följ

danny sullivanmer information finns i detalj. Danny Sullivans Guide: Meta Robots Tag 101

Danny sa: meta robots-taggen var en öppen standard som skapades för över ett decennium sedan och utformades initialt för att tillåta sidförfattare att förhindra sidindexering. Under åren har olika sökmotorer lagt till ytterligare stöd till taggen.

X-Robots-Tag HTTP header

ett annat enklare sätt att implementera detta på en webbplatsnivå är att använda X-Robots-Tag HTTP header. Du lägger detta till din .htaccess-fil:

detta fungerar för Apache-servrar med mod_headers aktiverat. När den här raden har lagts till fungerar den för hela webbplatsen.

återigen, vad detta betyder är att webbplatsen är effektivt indexerad, men visas inte i sökresultaten.

lösenordsskydd för att blockera sökrobotar

om du verkligen vill blockera sökrobotar från att komma åt och indexera din webbplats och visar upp i resultaten i sökresultaten, lösenordsskydda din webbplats. Det är ganska lätt att genomföra en .htaccess-lösenord så att ingen sökrobot kan fortsätta. Detta kommer att se till att inget som är lösenordsskyddat kommer att genomsökas, och aldrig göra det i indexet.

Dawn Anderson Dawn Anderson XML sitemaps och andra interna länkar. Länkar till testwebbplatser verkar vara områden där du ser detta mycket. Bäst att blockera testwebbplatser med antingen lösenordsinloggning eller IP-inkluderingslistor definierade i konfigurationsfiler. Naturligtvis, om dynamiska IP-adresser är i mixen blir det lite mer problematiskt

mer relaterade krypnings-och indexeringsresurser

att förstå robotar och sökrobotar, och många av de finare detaljerna om hur dessa krypningsteori fungerar, kan ge dig en fördel som SEO. Här är några länkar till bra resurser för att lära dig mer:

  • Googles robotar metatagg och X-robotar-Tag HTTP header SPECIFIKATIONER
  • Crawl Efficiencey på SEMrush av Dawn Aderson
  • Google Webmasters hangouts

Peter Mead delar över 20 års erfarenhet av Digital och som WordPress SEO-konsult. Peter drar ytterligare kunskap och erfarenhet från sitt engagemang som SEMrush Webinar värd och en co-arrangör av Melbourne SEO Meetup. Skriva artiklar baserade på hans praktiska analytiska och strategiska erfarenhet. Peter brinner för att bidra till kundens framgång och förbättring av det bredare SEO-samhället.

Peter kan hittas på några av dessa platser:

värd för SEMrush Australian Search Marketing Academy Webinar: https://www.semrush.com/user/145846945/
WordPress SEO konsult: Peter Mead iT https://petermead.com/
medarrangör: Melbourne SEO Meetup https://www.meetup.com/Melbourne-SEO/

mer information om Peter Mead

Lämna en kommentar

Din e-postadress kommer inte publiceras.