Google dejará de admitir Robots.txt Noindex: lo que eso significa

Eficaz 1 de septiembre de 2019, Google ya no admitirá la directiva robots.txt relacionada con la indexación. Esto significa que Google comenzará a indexar sus páginas web si solo ha confiado en la directiva noindex de robots.txt para eliminar esas páginas de las SERP. Tienes hasta el primero de septiembre para quitarlo y usar otro método.

A noindex robots.txt es una etiqueta (generalmente en HTML) en su archivo robots.txt que evita que los motores de búsqueda incluyan esa página en las SERP.

¿Por qué Google ya no lo admite? Porque la directiva de robots.txt noindex no es una directiva oficial. Y, como dice Google:

“Con el interés de mantener un ecosistema saludable y prepararnos para posibles versiones futuras de código abierto, retiraremos todo el código que maneja reglas no admitidas y no publicadas (como noindex) el 1 de septiembre de 2019”.

Hemos ayudado a compañías Fortune 500, startups respaldadas por riesgo y compañías como la suya. aumentar los ingresos más rápido. Obtenga una consulta gratuita

Actualizaciones recientes de Google

Google ha estado ocupado haciendo muchas actualizaciones en 2019. Como repaso, las más destacadas son:

  • Actualización principal de junio de 2019. Google emitió un comunicado oficial diciendo que “Mañana, lanzaremos una amplia actualización del algoritmo central, como lo hacemos varias veces al año. Se llama Actualización principal de junio de 2019. Nuestra orientación sobre dichas actualizaciones sigue siendo la que hemos cubierto antes “.

Mañana, lanzaremos una amplia actualización del algoritmo central, como lo hacemos varias veces al año. Se llama Actualización principal de junio de 2019. Nuestra guía sobre dichas actualizaciones sigue siendo la misma que hemos cubierto antes. Consulte este tweet para obtener más información al respecto: https: //t.co/tmfQkhdjPL

– Google SearchLiaison (@searchliaison) 2 de junio de 2019

  • Actualización de diversidad. Esta pequeña actualización de junio es la que más afecta a las búsquedas transaccionales. Según la actualización, Google ahora tiene como objetivo devolver resultados de dominios únicos y ya no mostrará más de dos resultados del mismo dominio.
  • Actualización principal de marzo de 2019. Este es otro gran cambio en su algoritmo. Google confirmó esta actualización, pero no proporcionó un nombre, por lo que se la conoce como Actualización Florida 2 o la Actualización de núcleo amplio de Google 3/12. No se dieron nuevas orientaciones para esta actualización.

Contenido relacionado:

Adiós a la directiva Noindex Robots.txt de Google

Ahora, en julio de 2019, Google se ha despedido de las reglas indocumentadas y no admitidas en robots.txt. Esto es lo que Google tuiteó el 2 de julio de 2019:

¿Hoy nos despedimos de las reglas indocumentadas y no admitidas en robots.txt?

Si confiaba en estas reglas, conozca sus opciones en la publicación de nuestro blog.https: //t.co/Go39kmFPLT

– Google Webmasters (@googlewmc) 2 de julio de 2019

Si su sitio web utiliza la directiva noindex en el archivo robots.txt, deberá utilizar otras opciones. Según la declaración publicada en el blog oficial del Centro para webmasters de Google:

“Con el interés de mantener un ecosistema saludable y prepararnos para posibles versiones futuras de código abierto, retiraremos todo el código que maneja reglas no admitidas y no publicadas (como noindex) el 1 de septiembre de 2019”.

La razón para cancelar el soporte para robots.txt noindex también se discutió en el blog de Google:

“En particular, nos centramos en las reglas que no son compatibles con el borrador de Internet, como crawl-delay, nofollow y noindex. Dado que estas reglas nunca fueron documentadas por Google, naturalmente, su uso en relación con Googlebot es muy bajo. Profundizando más, vimos que otras reglas contradecían su uso en todos los archivos robots.txt en Internet, excepto en el 0,001%. Estos errores perjudican la presencia de los sitios web en los resultados de búsqueda de Google de formas que no creemos que pretendieran los webmasters “.

Robots.txt: el protocolo de exclusión de robots (REP)

El Protocolo de exclusión de robots (REP), más conocido como Robots.txt, se ha utilizado desde 1994, pero nunca se convirtió en un estándar oficial de Internet. Pero sin un estándar adecuado, tanto los webmasters como los rastreadores estaban confundidos con respecto a lo que se rastrea. Además, el REP nunca se actualizó para cubrir los casos de esquina de hoy.

Según el blog oficial de Google:

“REP nunca se convirtió en un estándar oficial de Internet, lo que significa que los desarrolladores han interpretado el protocolo de manera algo diferente a lo largo de los años. Y desde su inicio, el REP no se ha actualizado para cubrir los casos de esquina de hoy. Este es un problema desafiante para los propietarios de sitios web porque el estándar ambiguo de facto dificulta la redacción de las reglas correctamente “.

Para terminar con esta confusión, Google ha documentado cómo se usa el REP en la web y lo ha enviado al IETF (Grupo de trabajo de ingeniería de Internet), que es una Organización de estándares abiertos para hacer que Internet funcione mejor.

Google dijo en un comunicado oficial:

“Queríamos ayudar a los propietarios y desarrolladores de sitios web a crear experiencias increíbles en Internet en lugar de preocuparnos por cómo controlar los rastreadores. Junto con el autor original del protocolo, los webmasters y otros motores de búsqueda, documentamos cómo se usa el REP en la web moderna y lo enviamos al IETF “.

Lo que esto significa para ti

Si usa noindex en su archivo robots.txt, Google ya no lo respetará. Han honrado algunas de esas implementaciones, aunque John Mueller nos recuerda:

Bueno, hemos estado diciendo que no dependamos de él durante años :).

-? John ? (@JohnMu) 2 de julio de 2019

Verás una notificación en Google Search Console si continúas usando noindex en tus archivos robots.txt.

Contenido relacionado:

Alternativas al uso de la directiva de indexación Robots.txt

Si su sitio web aún se basa en la directiva noindex de robots.txt, entonces eso debe cambiarse porque Googlebots no seguirá las reglas de la directiva a partir del 1 de septiembre de 2019. Pero, ¿qué debería usar en su lugar? Aquí hay algunas alternativas:

1) Bloquear la indexación de búsqueda con metaetiqueta ‘noindex’

Para evitar que los rastreadores del motor de búsqueda indexen una página, puede usar la metaetiqueta ‘noindex’ y agregarla en el sección de su página.

Alternativamente, puede usar los encabezados de respuesta HTTP con una etiqueta X-Robots que indique a los rastreadores que no indexen una página:

HTTP / 1.1 200 OK

(…)

Etiqueta de X-Robots: noindex

2) Utilice códigos de estado HTTP 404 y 410

410 es el código de estado que se devuelve cuando el recurso de destino ya no está disponible en el servidor de origen.

Como señala HTTPstatuses:

“La respuesta 410 tiene como objetivo principal ayudar en la tarea de mantenimiento web notificando al destinatario que el recurso no está disponible intencionalmente y que los propietarios del servidor desean que se eliminen los enlaces remotos a ese recurso”.

404 es similar al código de estado 410. En palabras de John Mueller:

“Desde nuestro punto de vista, a medio / largo plazo, un 404 es lo mismo que un 410 para nosotros. Entonces, en ambos casos, eliminamos esas URL de nuestro índice.

Por lo general, reducimos un poco el rastreo de esas URL para no perder demasiado tiempo rastreando cosas que sabemos que no existen.

La sutil diferencia aquí es que un 410 a veces se cae un poco más rápido que un 404. Pero por lo general, estamos hablando del orden de un par de días más o menos.

Entonces, si solo está eliminando contenido de forma natural, entonces está perfectamente bien usar cualquiera de los dos. Si ya eliminó este contenido hace mucho tiempo, entonces ya no está indexado, por lo que no nos importa si usa un 404 o un 410 “.

3) Utilice la protección por contraseña

Puede ocultar una página detrás de los inicios de sesión porque Google no indexa las páginas que están ocultas detrás de los inicios de sesión o contenido de pago.

4) No permitir que los robots utilicen Robots.txt

Puede utilizar la directiva de no permitir en el archivo robots.txt para indicar a los motores de búsqueda que no permitan la indexación de las páginas elegidas, lo que simplemente significa que le está diciendo a los motores de búsqueda que no rastreen una página específica.

En palabras de Google:

“Si bien el motor de búsqueda también puede indexar una URL en función de los enlaces de otras páginas, sin ver el contenido en sí, nuestro objetivo es hacer que esas páginas sean menos visibles en el futuro”.

5) Utilice la herramienta de eliminación de URL de Search Console

Puede utilizar la herramienta Eliminar URL de Search Console para eliminar una URL temporalmente de los resultados de búsqueda. Este bloque tendrá una duración de 90 días. Si desea que el bloqueo sea permanente, puede utilizar cualquiera de los cuatro métodos sugeridos anteriormente.

Hemos ayudado a compañías Fortune 500, startups respaldadas por riesgo y compañías como la suya. aumentar los ingresos más rápido. Obtenga una consulta gratuita

Ultima palabra

Si desea obtener más información sobre cómo eliminar su contenido de los resultados de búsqueda de Google, diríjase al Centro de ayuda de Google.