uważasz, że wprowadzenie reguł zakazujących pracy w Twoich robotach.txt zatrzyma Twoją witrynę w wyszukiwarkach. Więc umieszczasz następujące elementy w swoich robotach.plik txt do blokowania robotów sieciowych:

robots txt disallow

pająk będzie się czołgał
to powinno blokować wszystkim robotom pełzanie, prawda? … err right. A potem odkrywasz, że na późniejszym etapie twoje strony nadal pojawiają się w Google lub Bing. Nie dobrze, nie byłeś jeszcze gotowy z nowym projektem strony, a teraz jest wymieniony w wyszukiwarkach. Co tu się dzieje?

indeksowane przez roboty blokujące

istnieje kilka pojęć do zrozumienia, a pierwszą z nich jest różnica między notowaniem w wynikach wyszukiwania a faktycznie indeksowaniem. Ponieważ często myślimy, że potrzebujemy, aby nasza strona była indeksowana, zanim zablokuje roboty indeksujące i nie pojawi się w wynikach wyszukiwania, prawda? Niezupełnie.

Nish Stephen Nishanth Stephen Google nadal może zdecydować się na indeksowanie i indeksowanie witryny na podstawie zewnętrznych informacji, takich jak linki przychodzące, które są istotne.

pamiętaj, że istnieje wiele sposobów na wykrywanie i indeksowanie adresów URL w Internecie. W tym oczywiście jeden z najbardziej oczywistych, który jest odkrycie poprzez linki wskazujące na twój adres URL. Więc nawet jeśli roboty.plik txt powiedział tym pająkom robotów, aby przestrzegali zakazu umieszczonego w pliku, twój adres URL nadal może być indeksowany. Google sprawia, że ten punkt bardzo jasne, Czytaj więcej tutaj: http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449

Matt Cutts wyjaśnia Nieskrawane adresy URL w wynikach wyszukiwania

jeśli istnieją linki prowadzące do twojego adresu URL, Google podąża za tymi linkami. Tak więc adres URL nadal pojawia się w wynikach wyszukiwania. Może więc pojawić się w wynikach wyszukiwania, w zależności od tego, jakie wyszukiwanie wykonałeś, ale może nie być indeksowany. Oto świetny przewodnik od Joost de Valk, który pomoże Ci upewnić się, że Twoje adresy URL nie zostaną zindeksowane.

infografika szybkie wskazówki jak zablokować roboty internetowe

.block web crawlers robots.txt

Disallow w robotach.txt do blokowania robotów

co faktycznie się dzieje, gdy używamy robotów.plik txt do blokowania robotów. Jak widać na tym zdjęciu, mówi ci, dlaczego opis nie jest dostępny. Adres url strony jest nadal wykrywany, ale nie pokazuje opisu.

Google snippet zablokował roboty txt

Barry Schwartz zgłosił opisowy fragment wyszukiwania, gdy został zablokowany przez roboty.plik txt. Google zaczął pokazywać te opisowe fragmenty wyszukiwania, Gdy nie może pokazać opisowego wyniku, w 2012 roku.

często źle zrozumiano, że zastosowanie tego podejścia powstrzyma Twoją witrynę przed dostaniem się do wyników wyszukiwania. Ponieważ jednak faktycznie blokujesz gąsienicowi dostęp do adresu URL, oznacza to, że nie może opisać, co znajduje się na tej stronie.

Sha MenzSHA Menz w skrócie-zamykanie drzwi wejściowych nie przeszkadza ludziom wspinać się w otwartym oknie 🙂

mój ulubiony post wszech czasów został napisany przez Lindsay Wassell bardzo dawno temu, ale nadal jest prawdziwy https://moz.com/blog/restricting-robot-access-for-improved-seo

**uważaj, aby nie używać nofollow bez uważnego myślenia

wiadomo również, że strona w Twojej witrynie jest indeksowana, gdy strona jest udostępniana, a jak wspomniał Tony poniżej za pomocą przycisków G+

Tony McCreathTony McCreath pamiętam, że w pewnym momencie Google stwierdziło, że nadpiszą te żądania, jeśli inne sygnały były sprzeczne. To była obecność przycisku G+. Inne rzeczy, takie jak kanoniczność, mogą również mylić rzeczy.

roboty.txt uniemożliwia dostęp do adresu URL, nie zatrzymuje dodawania go do indeksu wyszukiwania. Po prostu przestaje używać swoich treści. Meta tag noindex niech strona zostanie indeksowana i technicznie jest indeksowana, ale nie ma być wyświetlana w wynikach wyszukiwania. Nofollow to co innego.

bardziej niezawodnym sposobem upewnienia się, że adres URL nie pojawia się w wynikach wyszukiwania, jest użycie znacznika meta robots noindex.

meta robots tag, aby zatrzymać listę adresów URL

aby upewnić się, że Twoje strony nie pojawiają się w wyszukiwarkach, musisz dokładnie przemyśleć ich indeksowanie. Aby zapobiec umieszczaniu adresu URL w wynikach wyszukiwania, należy użyć znacznika meta robots. O tak.:

 meta robots tag noindex nofollow

użyję poniższego tagu, aby umożliwić wyszukiwarkom śledzenie i przekazywanie linków, ale noindex strony:

meta roboty tag noindex śledź

John S. Britsios John S. Britsios jedyna różnica między robotami.txt i meta noindex, nofollow polega na tym, że przy robotach boty w ogóle nie mają dostępu do strony, a przy meta mają dostęp do strony, ale nie mogą przejść przez linki strony. Druga opcja tworzy zwisające strony (węzły). Jeśli używasz dyrektyw meta, powinieneś użyć noindex, follow. Wtedy wszystko będzie dobrze.

jeśli nie masz żadnego znacznika meta robots określonego w Twojej witrynie, domyślnie będzie to indeksuj, podążaj. Co jest zasadniczo takie samo jak określenie tego tagu:

 meta robots tag index follow

danny sullivan więcej informacji można znaleźć w szczegółach. Danny Sullivan ’ s Guide: Meta Robots Tag 101

Danny powiedział: meta robots tag był otwartym standardem stworzonym ponad dekadę temu i zaprojektowanym początkowo, aby umożliwić autorom stron zapobieganie indeksowaniu stron. Z biegiem lat różne wyszukiwarki dodały dodatkowe wsparcie dla tagu.

nagłówek HTTP X-Robots-Tag

innym łatwiejszym sposobem na zaimplementowanie tego na poziomie witryny jest użycie nagłówka HTTP X-Robots-Tag. Dodajesz to do swojego .plik htaccess:

działa to na serwerach Apache z włączoną mod_headers. Po dodaniu tej linii będzie ona działać dla całej witryny.

ponownie oznacza to, że strona jest skutecznie indeksowana, ale nie pojawia się w wynikach wyszukiwania.

Ochrona hasłem, aby zablokować roboty sieciowe

jeśli naprawdę chcesz zablokować roboty sieciowe przed dostępem i indeksowaniem Twojej witryny i pojawianiem się w wynikach w wynikach wyszukiwania, Zabezpiecz swoją witrynę hasłem. Jest to dość łatwe do wdrożenia .hasło htaccess, aby żaden robot nie mógł kontynuować. Zapewni to, że nic, co jest chronione hasłem, nie zostanie indeksowane i nigdy nie trafi do indeksu.

Dawn Anderson Dawn Anderson XML sitemaps i inne linki wewnętrzne. Linki do stron testowych wydają się być obszarami, w których często to widzisz. Najlepiej blokować witryny testowe za pomocą haseł logowania lub list włączania IP zdefiniowanych w plikach konfiguracyjnych. Oczywiście, jeśli dynamiczne adresy IP są w miksie, staje się to nieco bardziej problematyczne

więcej powiązanych zasobów indeksowania i indeksowania

zrozumienie robotów i robotów indeksujących oraz wiele drobniejszych szczegółów na temat tego, jak działa teoria indeksowania, może dać ci przewagę jako SEO. Oto kilka linków do świetnych zasobów, aby dowiedzieć się więcej:

  • Google ’ s Robots meta tag and X-Robots-Tag HTTP header specifications
  • Crawl Efficiencey on SEMrush by Dawn Aderson
  • Google webmasters hangouts

Peter Mead dzieli się ponad 20-letnim doświadczeniem w branży cyfrowej i jako konsultant SEO WordPress. Peter czerpie dalszą wiedzę i doświadczenie ze swojego zaangażowania jako gospodarz webinarów SEMrush i współorganizator Melbourne SEO Meetup. Pisanie artykułów w oparciu o praktyczne doświadczenie analityczne i strategiczne. Peter z pasją przyczynia się do sukcesu klienta i poprawy szerszej społeczności SEO.

Peter można znaleźć na niektórych z tych stron:

Hosting SEMrush Australian Search Marketing Academy Webinar: https://www.semrush.com/user/145846945/
konsultant SEO WordPress: Peter Mead iT https://petermead.com/
współorganizator: Melbourne SEO Meetup https://www.meetup.com/Melbourne-SEO/

więcej informacji o Peter Mead

Leave a comment

Twój adres e-mail nie zostanie opublikowany.