u denkt dat u de regels voor niet toestaan in uw robots plaatst.txt zal stoppen met uw site te zien zijn in de zoekmachines. Dus plaats je het volgende in je robots.txt-bestand om webcrawlers te blokkeren:

robots txt verbieden

de spin zal kruipen
dit zou moeten voorkomen dat alle robots kruipen, toch? … fout. En dan ontdek je in een later stadium uw pagina ‘ s zijn een of andere manier nog steeds te zien in Google of Bing. Niet goed, je was nog niet klaar met je nieuwe site ontwerp, en nu is het opgenomen in de zoekmachines. Wat is hier aan de hand?

geïndexeerd door crawlers block

er zijn een paar concepten te begrijpen, en de eerste is het verschil tussen het worden vermeld in de zoekmachine resultaten en dat van daadwerkelijk worden geïndexeerd. Omdat we vaak denken dat we onze site moeten worden geïndexeerd voordat het web crawlers blokkeren, en niet te zien zijn in de zoekresultaten rechts? Nou niet precies.

Nish StephenNishanth Stephen Google kan nog steeds beslissen om de site te doorzoeken en uiteindelijk te indexeren op basis van externe informatie, zoals inkomende links, dat het relevant is.

onthoud dat er vele manieren zijn waarop URL ‘ s ontdekt en gecrowled kunnen worden op het internet. Inclusief natuurlijk een van de meest voor de hand liggende die is discovery via links die verwijzen naar uw URL. Zelfs als de robots.txt-bestand heeft die robot spiders verteld om de weigering die u in het bestand te gehoorzamen, uw URL kan nog steeds worden geïndexeerd. Google maakt dit punt heel duidelijk, lees hier meer: http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449

Matt Cutts legt Ongekraste URL ‘ s uit in zoekresultaten

als er volglinks zijn die naar uw URL wijzen, dan volgt Google die links. Dus de URL verschijnt nog steeds in de zoekresultaten. Dus het kan worden weergegeven in uw zoekresultaten, afhankelijk van welke zoekopdracht Je hebt gedaan, maar het kan niet daadwerkelijk worden geïndexeerd. Hier is een geweldige gids van Joost de Valk, om u te helpen ervoor te zorgen dat uw URL ‘ s niet worden geïndexeerd.

Infographic quick tips How to block web crawlers

.Block webcrawlers robots.txt

niet toestaan in robots.txt om crawlers

te blokkeren wat gebeurt er eigenlijk als we de robots gebruiken.txt-bestand om robots te blokkeren. Zoals u kunt zien in deze afbeelding, Het vertelt u waarom een beschrijving niet beschikbaar is. De website url is nog steeds ontdekt, maar het toont niet de beschrijving.

Google snippet blocked robots txt

Barry Schwartz rapporteerde over een beschrijvend zoekfragment voor wanneer geblokkeerd door de robots.txt-bestand. Google begon met het tonen van deze beschrijvende zoekfragmenten voor wanneer het niet kan een desciptive resultaat, terug in 2012.

het is vaak verkeerd begrepen dat het gebruik van deze aanpak zal voorkomen dat uw site in de zoekresultaten. Maar omdat je eigenlijk de crawler blokkeren van toegang tot de URL, het betekent gewoon dat het niet kan beschrijven wat er op die pagina.

Sha MenzSha Menz In een notendop – het Vergrendelen van de deur stopt niet mensen aan het klimmen in een open venster 🙂

Mijn favoriete post van de all-time is geschreven door Lindsay Wassell een zeer lange tijd geleden, maar nog steeds geldt https://moz.com/blog/restricting-robot-access-for-improved-seo

**Wees voorzichtig met het gebruik nofollow zonder een zorgvuldige gedachte

Het is ook bekend dat een pagina op uw site wordt geïndexeerd wanneer de pagina wordt gedeeld, en zoals vermeld door Tony hieronder de door G+ knoppen

Tony McCreathTony McCreath ik herinner me op een bepaald moment Google verklaard dat zij zou negeren deze verzoeken als andere signalen worden tegengesproken. Het was de aanwezigheid van een G+ knop. Andere dingen zoals canonicalisatie kunnen ook dingen verwarren.

Robots.txt staat toegang tot een URL niet toe, het stopt niet dat deze wordt toegevoegd aan de zoekindex. Het stopt gewoon de inhoud wordt gebruikt. De noindex meta tag laten we een pagina krijgen gekropen en technisch is het geïndexeerd, maar het is niet te worden weergegeven in de zoekresultaten. Nofollow is iets anders.

een betrouwbaardere manier om ervoor te zorgen dat uw URL niet wordt weergegeven in de zoekresultaten is door het gebruik van de meta robots noindex tag.

meta robots tag to stop URL listing

om ervoor te zorgen dat uw pagina ‘ s niet verschijnen de zoekmachines moet u zorgvuldig nadenken over het indexeren van hen. Dus voorkomen dat het vermelden van uw URL in de zoekresultaten is om de meta robots tag te gebruiken. Zoals dit:

meta robots tag noindex nofollow

Ik gebruik de onderstaande tag om zoekmachines toe te staan link equity te volgen en door te geven, maar noindex de pagina ‘ s:

meta robots tag noindex volgen

John S. Britsios John S. Britsios het enige verschil tussen robots.txt en meta noindex, nofollow is, dat met robots de bots geen toegang tot de pagina op alle en met de meta kunnen ze toegang tot de pagina, maar kunnen equity niet doorgeven via de links van de pagina. En de tweede optie creëert bungelende pagina ‘ s (knooppunten). Als je de meta richtlijnen gebruikt, moet je noindex gebruiken,volg. Dan heb je het goed.

Als u geen meta robots-tag hebt opgegeven op uw site, dan zal het standaard indexeren, volgen. Dat is in wezen hetzelfde als het specifiëren van deze tag:

meta robots tag index follow

danny sullivanmeer informatie kan in detail worden gevonden. Danny Sullivan ‘ s Guide: meta Robots Tag 101

Danny zei: de meta robots tag was een open standaard die meer dan tien jaar geleden werd gemaakt en in eerste instantie werd ontworpen om pagina-auteurs toe te staan pagina-indexering te voorkomen. In de loop der jaren hebben verschillende zoekmachines extra ondersteuning aan de tag toegevoegd.

de X-Robots-Tag HTTP header

een andere makkelijkere manier om dit op sitewide niveau te implementeren is door de X-Robots-Tag HTTP header te gebruiken. Je voegt dit toe aan je .htaccess-bestand:

dit werkt voor Apache servers met mod_headers ingeschakeld. Zodra deze regel is toegevoegd, zal het werken voor de hele site.

nogmaals, wat dit betekent is dat de site effectief geïndexeerd is, maar niet in de zoekresultaten verschijnt.

wachtwoord beveiligen om webcrawlers

te blokkeren als u echt wilt voorkomen dat webcrawlers toegang krijgen tot en indexeren van uw site en deze weergeven in de resultaten in de zoekresultaten, beveilig dan uw site met een wachtwoord. Het is vrij eenvoudig om een te implementeren .htaccess wachtwoord zodat er geen crawler kan doorgaan. Dit zal ervoor zorgen dat niets dat is beveiligd met een wachtwoord zal worden gekropen, en nooit maken in de index.

Dawn AndersonDawn Anderson XML sitemaps en andere interne links. Links naar testsites lijken gebieden te zijn waar je dit veel ziet. Het beste om het testen van sites te blokkeren met een wachtwoord login of IP-opname lijsten gedefinieerd in configuratiebestanden. Natuurlijk, als dynamische IP ‘ s in de mix zitten wordt het een beetje problematischer

meer gerelateerde crawling-en indexeringsbronnen

het begrijpen van robots en crawlers, en veel van de fijnere details van hoe deze crawl theorie werkt, kan je een voordeel geven als een SEO. Hier zijn enkele links naar grote middelen om meer te leren:

  • Google ‘ s Robots meta tag en X-Robots-Tag HTTP header SPECIFICATIES
  • Crawl efficiency on SEMrush by Dawn Aderson
  • Google Webmasters hangouts

Peter Mead deelt meer dan 20 jaar ervaring in digitale en als WordPress SEO Consultant. Peter put verdere kennis en ervaring uit zijn betrokkenheid als SEMrush webinar host en co-organisator van Melbourne SEO Meetup. Het schrijven van artikelen op basis van zijn hands-on analytische en strategische ervaring. Peter is gepassioneerd over het bijdragen aan het succes van klanten en de verbetering van de bredere SEO gemeenschap.

Peter is te vinden op enkele van deze sites:

Hosting the SEMrush Australian Search Marketing Academy Webinar: https://www.semrush.com/user/145846945/
WordPress SEO Consultant: Peter Mead iT https://petermead.com/
medeorganisator: Melbourne SEO Meetup https://www.meetup.com/Melbourne-SEO/

meer informatie over Peter Mead

Reageren

Het e-mailadres wordt niet gepubliceerd.