Pensi che mettere le regole di non consentire nei tuoi robot.txt fermerà il tuo sito mostrando nei motori di ricerca. Quindi inserisci quanto segue nei tuoi robot.file txt per bloccare i crawler web:

robot txt non consentire

il ragno strisciare
Questo dovrebbe bloccare tutti i robot di strisciare destra? er err giusto. E poi si scopre in una fase successiva le pagine sono in qualche modo ancora mostrando in Google o Bing. Non va bene, non eri ancora pronto con il tuo nuovo design del sito, e ora è elencato nei motori di ricerca. Che succede qui?

indicizzato da crawler block

Ci sono alcuni concetti da capire, e il primo è la differenza tra essere elencati nei risultati dei motori di ricerca e quello di essere effettivamente indicizzati. Dal momento che spesso pensiamo che abbiamo bisogno il nostro sito per essere indicizzato prima che bloccherà web crawler, e non presentarsi nei risultati di ricerca giusto? Beh, non esattamente.

Nish Stephen Nishanth Stephen Google può ancora decidere di eseguire la scansione e alla fine indicizzare il sito sulla base di informazioni esterne come i link in entrata, che è rilevante.

Ricorda ci sono molti modi per gli URL da scoprire e strisciare su Internet. Compreso ovviamente uno dei più ovvi che è la scoperta tramite link che puntano al tuo URL. Quindi, anche se i robot.il file txt ha detto a quei ragni robot di obbedire al Disallow che hai inserito nel file, il tuo URL può ancora essere indicizzato. Google rende questo punto molto chiaro, per saperne di più qui: http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449

Matt Cutts spiega gli URL non spiegati nei risultati di ricerca

Se ci sono link di follow che puntano al tuo URL, Google segue tali link. Quindi l’URL appare ancora nei risultati di ricerca. Quindi potrebbe apparire nei risultati della ricerca, a seconda di quale ricerca hai fatto, ma potrebbe non essere effettivamente indicizzato. Ecco un’ottima guida di Joost de Valk, per aiutarti a assicurarti che i tuoi URL non vengano indicizzati.

Infografica suggerimenti rapidi come bloccare web crawler

. blocco web crawler robot.txt

Non consentire nei robot.txt per bloccare i crawler

Cosa succede realmente quando usiamo i robot.file txt per bloccare i robot. Come puoi vedere in questa immagine, ti sta dicendo perché una descrizione non è disponibile. L’URL del sito web è ancora scoperto ma non mostra la descrizione.

google snippet blocked robots txt

Barry Schwartz ha riportato un frammento di ricerca descrittivo per quando bloccato dai robot.file txt. Google ha iniziato a mostrare questi frammenti di ricerca descrittivi per quando non è possibile mostrare un risultato descrittivo, nel 2012.

È comunemente frainteso che l’utilizzo di questo approccio impedirà al tuo sito di entrare nei risultati di ricerca. Tuttavia, poiché in realtà stai bloccando il crawler dall’accesso all’URL, significa solo che non può descrivere cosa c’è in quella pagina.

Sha MenzSha Menz In poche parole – chiave la porta d’ingresso non si ferma la gente arrampicata in una finestra aperta 🙂

il Mio post preferito di tutti i tempi è stato scritto da Lindsay Wassell molto tempo fa, ma detiene ancora vero https://moz.com/blog/restricting-robot-access-for-improved-seo

**Fare attenzione a non utilizzare l’attributo nofollow senza un’attenta riflessione

e ‘ anche noto che la pagina del sito di ottenere indicizzati quando la pagina viene condivisa, e come detto da Tony, seguito da G+ pulsanti

Tony McCreathTony McCreath ricordo che a un certo punto Google ha dichiarato che avrebbero ignorare queste richieste se altri segnali contraddicevano. Era la presenza di un pulsante G+. Altre cose come la canonicalizzazione possono anche confondere le cose.

Robot.txt non consente l’accesso a un URL, non impedisce che venga aggiunto all’indice di ricerca. Si ferma solo il suo contenuto viene utilizzato. Il meta tag noindex consente di eseguire la scansione di una pagina e tecnicamente è indicizzata, ma non deve essere mostrata nei risultati di ricerca. Nofollow è una cosa diversa.

Un modo più affidabile per assicurarsi che il tuo URL non appaia nei risultati di ricerca è usando il tag noindex meta robots.

Meta robot tag per fermare URL listing

Per assicurarsi che le pagine non appaiono i motori di ricerca è necessario riflettere attentamente su di loro indicizzazione. Quindi evitare di elencare il tuo URL nei risultati di ricerca è usare il tag meta robots. Come questo:

meta robot tag noindex nofollow

io uso il seguente tag per consentire ai motori di ricerca di seguire e superare link del patrimonio netto, ma noindex pagine:

meta robots noindex tag seguire

John S. BritsiosGiovanni S. Britsios L’unica differenza tra robot.txt e meta noindex, nofollow è, che con i robot i bot non possono accedere alla pagina e con la meta possono accedere alla pagina ma non possono passare equity attraverso i link della pagina. E la seconda opzione crea pagine penzolanti (nodi). Se si utilizzano le direttive meta, è necessario utilizzare noindex, seguire. Allora avrai le cose per bene.

Se non si dispone di alcun tag meta robot specificato sul tuo sito, allora sarà predefinito per indicizzare, seguire. Che è essenzialmente lo stesso di specificare questo tag:

indice tag meta robots segui

danny sullivan Maggiori informazioni possono essere trovate in dettaglio. Danny Sullivan’s Guide: Meta Robots Tag 101

Danny ha detto: Il tag meta robots era uno standard aperto creato oltre un decennio fa e progettato inizialmente per consentire agli autori di pagine di impedire l’indicizzazione delle pagine. Nel corso degli anni, vari motori di ricerca hanno aggiunto ulteriore supporto al tag.

L’intestazione HTTP X-Robots-Tag

Un altro modo più semplice per implementare questo a livello di sito è quello di utilizzare l’intestazione HTTP X-Robots-Tag. Si aggiunge questo al vostro .file htaccess:

Questo funziona per i server Apache con mod_headers abilitato. Una volta aggiunta questa riga, funzionerà per l’intero sito.

Ancora una volta, ciò significa che il sito è effettivamente indicizzato, ma non appare nei risultati di ricerca.

Password protect per bloccare web crawler

Se si vuole veramente bloccare web crawler di accedere e indicizzare il tuo sito e mostrando nei risultati nei risultati di ricerca, proteggere con password il tuo sito. E ‘ abbastanza facile da implementare un .htaccess password in modo che nessun crawler può procedere. Questo farà in modo che nulla che è protetto da password verrà strisciato, e mai farlo nell’indice.

Dawn Anderson Dawn Anderson sitemap XML e altri collegamenti interni. I collegamenti ai siti di test sembrano essere aree in cui lo vedi molto. Meglio bloccare i siti di test con login password o elenchi di inclusione IP definiti nei file di configurazione. Naturalmente, se gli IP dinamici sono nel mix, diventa un po ‘ più problematico

Risorse di indicizzazione e indicizzazione più correlate

Comprendere robot e crawler e molti dei dettagli più fini di come funziona questa teoria della scansione, può darti un vantaggio come SEO. Ecco alcuni link a grandi risorse per saperne di più:

  • Google meta tag Robots e X-Robots-Tag di intestazione HTTP specifiche tecniche
  • Crawl Efficiencey su SEMrush da Alba Aderson
  • Google Webmaster hangout

Pietro Mead azioni oltre 20 anni di esperienza nel Digital e come WordPress SEO Consultant. Peter trae ulteriore conoscenza ed esperienza dal suo coinvolgimento come ospite SEMrush Webinar e un co-organizzatore di Melbourne SEO Meetup. Scrivere articoli basati sulla sua esperienza analitica e strategica. Peter è appassionato di contribuire al successo dei clienti e al miglioramento della più ampia comunità SEO.

Pietro può essere trovato su alcuni di questi siti:

Hosting il SEMrush Australiano di Ricerca di Marketing Academy Webinar: https://www.semrush.com/user/145846945/
WordPress SEO Consultant: Pietro Mead è https://petermead.com/
Co-Organizzatore: Melbourne SEO Meetup https://www.meetup.com/Melbourne-SEO/

Ulteriori informazioni Su Peter Mead

Leave a comment

Il tuo indirizzo email non sarà pubblicato.