Por qué GoogleBot no rastrea suficientes páginas en algunos sitios

En un Hangout de Google SEO Office Hours, se le preguntó a John Mueller de Google por qué Google no rastreaba suficientes páginas web. La persona que hizo la pregunta explicó que Google avanzaba a un ritmo que era insuficiente para seguir el ritmo de un sitio web enormemente grande. John Mueller explicó por qué Google podría no estar rastreando suficientes páginas.

¿Qué es el presupuesto de rastreo de Google?

GoogleBot es el nombre del rastreador de Google que va de página web a página web indexándolos con fines de clasificación.

Pero debido a que la web es grande, Google tiene una estrategia de solo indexar páginas web de mayor calidad y no indexar las páginas web de baja calidad.

Según la página de desarrollador de Google para sitios web enormes (en los millones de páginas web):

“La cantidad de tiempo y recursos que Google dedica al rastreo de un sitio se denomina comúnmente presupuesto de rastreo del sitio.

Tenga en cuenta que no todo lo que se rastrea en su sitio se indexará necesariamente; cada página debe evaluarse, consolidarse y evaluarse para determinar si se indexará después de que se haya rastreado.

El presupuesto de rastreo está determinado por dos elementos principales: el límite de capacidad de rastreo y la demanda de rastreo “.

Anuncio publicitario

Continuar leyendo a continuación

Relacionado: Google SEO 101: explicación del presupuesto de rastreo de sitios web

¿Qué decide el presupuesto de rastreo de GoogleBot?

La persona que hacía la pregunta tenía un sitio con cientos de miles de páginas. Pero Google solo rastreaba unas 2.000 páginas web por día, una velocidad demasiado lenta para un sitio tan grande.

La persona que hizo la pregunta siguió con la siguiente pregunta:

“¿Tiene algún otro consejo para obtener información sobre el presupuesto variable actual?

Solo porque siento que realmente hemos intentado hacer mejoras, pero no hemos visto un salto en las páginas por día rastreadas “.

Mueller de Google le preguntó a la persona qué tan grande es el sitio.

La persona que hizo la pregunta respondió:

“Nuestro sitio tiene cientos de miles de páginas.

Y hemos visto que se rastrean alrededor de 2.000 páginas por día, a pesar de que hay una acumulación de como 60.000 páginas descubiertas pero aún no indexadas o rastreadas “.

John Mueller de Google respondió:

“Entonces, en la práctica, veo dos razones principales por las que eso sucede.

Por un lado, si el servidor es significativamente lento, que es … el tiempo de respuesta, creo que también lo verá en el informe de estadísticas de rastreo.

Esa es un área en la que si … como si tuviera que darle un número, diría que apunte a algo por debajo de 300, 400 milisegundos, algo así en promedio.

Porque eso nos permite rastrear casi todo lo que necesitamos.

No es lo mismo que la velocidad de la página.

Así que eso es … algo a tener en cuenta “.

Anuncio publicitario

Continuar leyendo a continuación

Relacionado: Presupuesto de rastreo: todo lo que necesita saber para SEO

La calidad del sitio puede afectar el presupuesto de rastreo de GoogleBot

John Mueller de Google mencionó a continuación el problema de la calidad del sitio.

La mala calidad del sitio puede hacer que el rastreador de GoogleBot no rastree un sitio web.

John Mueller de Google explicó:

“La otra gran razón por la que no rastreamos mucho desde sitios web es porque no estamos convencidos de la calidad en general.

Así que eso es algo en lo que, especialmente con los sitios más nuevos, veo que a veces tenemos problemas con eso.

Y también veo a veces que la gente dice bien, técnicamente es posible crear un sitio web con un millón de páginas porque tenemos una base de datos y simplemente la ponemos en línea.

Y con solo hacer eso, esencialmente de un día para otro encontraremos muchas de estas páginas, pero diremos que todavía no estamos seguros de la calidad de estas páginas.

Y seremos un poco más cautelosos al rastrearlos e indexarlos hasta que estemos seguros de que la calidad es realmente buena “.

Factores que afectan la cantidad de páginas que rastrea Google

Hay otros factores que pueden afectar la cantidad de páginas que rastrea Google que no se mencionaron.

Por ejemplo, es posible que un sitio web alojado en un servidor compartido no pueda entregar páginas lo suficientemente rápido a Google porque puede haber otros sitios en el servidor que están usando recursos excesivos, lo que ralentiza el servidor para los otros miles de sitios en ese servidor.

Otra razón puede ser que el servidor está siendo atacado por robots deshonestos, lo que hace que el sitio web se ralentice.

El consejo de John Mueller de tener en cuenta la velocidad a la que el servidor atiende las páginas web es bueno. Asegúrese de verificarlo después de las horas de la noche porque muchos rastreadores como Google se rastrearán en las primeras horas de la mañana porque generalmente es un momento menos perturbador para rastrear y hay menos visitantes del sitio en los sitios a esa hora.

Citas

Lea la página para desarrolladores de Google sobre el presupuesto de rastreo para sitios grandes:
Guía del propietario de un sitio grande para administrar su presupuesto de rastreo

Anuncio publicitario

Continuar leyendo a continuación

Mire a John Mueller de Google responder a la pregunta acerca de que GoogleBot no rastrea suficientes páginas web.

Véalo aproximadamente a los 25:46 minutos: