google non seguirà più la regola noindex in robots.txt

dal 1 Settembre 2019 Google non seguirà più la regola noindex in robots.txt

Ciò significa che a partire dal 1 ° settembre, Google non seguirà più la regola noindex nel file robots.txt e le direttive non supportate e non pubblicate nel protocollo esclusivo dei robot, come annunciato dalla società sul blog di Google Webmaster.

Google non supporterà più i file robots.txt con la direttiva noindex elencata all’interno dello stesso file.

Il colosso di Mountain View afferma che:
“Nell’interesse di mantenere un ecosistema sano e prepararsi a potenziali future versioni open source, stiamo ritirando tutto il codice che gestisce le regole non supportate e non pubblicate (come noindex) il 1 ° settembre 2019. Per quelli di voi che hanno fatto affidamento sul noindex direttiva di indicizzazione nel file robots.txt, che controlla la scansione, ci sono un certo numero di opzioni alternative “… Leggi il testo completo dell’annuncio sul Blog di Google Webmaster

Google suggerisce una serie di alternative per evitare l’indicizzazione del sito:

  1.  Noindex nei meta tag robots: supportati sia nelle intestazioni delle risposte HTTP che in HTML, la direttiva noindex è il modo più efficace per rimuovere gli URL dall’indice quando la scansione è consentita.
  2.  404 e 410 codici di stato HTTP: entrambi i codici di stato indicano che la pagina non esiste, che lascerà cadere tali URL dall’indice di Google una volta che sono stati sottoposti a scansione ed elaborati.
  3.  Protezione password: a meno che non venga utilizzato il markup per indicare il contenuto dell’abbonamento o del paywall, generalmente nascondendo una pagina dietro un account di accesso verrà rimosso dall’indice di Google.
  4.  Disallow in robots.txt: i motori di ricerca possono solo indicizzare le pagine di cui sono a conoscenza, quindi bloccare la scansione della pagina spesso significa che il suo contenuto non verrà indicizzato. Mentre il motore di ricerca può anche indicizzare un URL basato su collegamenti da altre pagine, senza vedere il contenuto stesso, miriamo a rendere tali pagine meno visibili in futuro.
  5. Search Console Tool Remove URL: lo strumento è un metodo rapido e semplice per rimuovere temporaneamente un URL dai risultati di ricerca di Google.
Personalmente utilizzerò il meta tag robots “noindex” per escludere tutti i crawler dall’indicizzazione del sito:

<meta name=”robots” content=”noindex” />

google non seguirà più la regola noindex in robots.txt-2

Diventerà lo standart…

Google ha annunciato che la società sta lavorando per rendere standard il protocollo di esclusione dei robot e questo è probabilmente il primo cambiamento in arrivo. In effetti, Google ha rilasciato il suo parser robots.txt come progetto open source insieme all’annuncio del 2 luglio.

Perché Google sta cambiando ora?

Google ha cercato di cambiare queste direttive da anni e con la standardizzazione del protocollo, ora può procedere. Google ha detto che “ha analizzato l’utilizzo delle regole robots.txt.” Google si concentra sull’osservazione di implementazioni non supportate t, come il ritardo di scansione (crawl-delay), il nofollow e il noindex. “Dal momento che queste regole non sono mai state documentate da Google, naturalmente, il loro utilizzo in relazione a Googlebot è molto basso”, ha affermato Google. “Questi errori danneggiano la presenza dei siti web nei risultati di ricerca di Google in modi che non riteniamo siano previsti dai webmaster”.

Perché è importante?

La cosa più importante è assicurarsi di non utilizzare la direttiva noindex nel file robots.txt. Se lo utilizzi, potrai apportare le modifiche suggerite sopra prima del 1 settembre. Inoltre, cerca di vedere se stai usando i comandi nofollow o crawl-delay e, in tal caso, cerca di utilizzare un metodo supportato per il futuro.

Voi cosa ne pensate???

Testo tradotto in italiano dal post originale di searchengineland.com di Barry Schwartz.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.