Los 5 problemas de indexación de Google más comunes por tamaño del sitio web

Google es abierto sobre el hecho de que no indexa todas las páginas que puede encontrar. Con Google Search Console, puede ver las páginas de su sitio web que no están indexadas.

Google Search Console también le brinda información útil sobre el problema específico que impidió que se indexara una página.

Estos problemas incluyen errores del servidor, 404 y sugerencias de que la página puede tener contenido delgado o duplicado.

Pero nunca llegamos a ver ningún dato que muestre qué problemas son los más comunes en toda la web.

Así que… ¡decidí recopilar datos y compilar las estadísticas yo mismo!

En este artículo, exploraremos los problemas de indexación más populares que impiden que sus páginas aparezcan en la Búsqueda de Google.

Indexación 101

La indexación es como construir una biblioteca, excepto que en lugar de libros, Google se ocupa de los sitios web.

Si desea que sus páginas aparezcan en la búsqueda, deben estar indexadas correctamente. En términos sencillos, Google tiene que encontrarlos y guardarlos.

Luego, Google puede analizar su contenido para decidir para qué consultas podrían ser relevantes.

Ser indexado es un requisito previo para obtener tráfico orgánico de Google. Y a medida que se indexan más páginas de su sitio web, tiene más posibilidades de aparecer en los resultados de búsqueda.

Por eso es muy importante que sepas si Google puede indexar tu contenido.

Esto es lo que hice para identificar problemas de indexación

Mis tareas diarias incluyen la optimización de sitios web desde un punto de vista técnico de SEO para hacerlos más visibles en Google y, como resultado, tengo acceso a varias docenas de sitios en Google Search Console.

Decidí poner esto en práctica con el fin de hacer que los problemas de indexación sean populares… bueno, menos populares.

Por transparencia, desglosé la metodología que me llevó a algunas conclusiones interesantes.

Metodología

Comencé creando una muestra de páginas, combinando datos de dos fuentes:

  • Usé los datos de nuestros clientes que estaban disponibles para mí.
  • Pedí a otros profesionales de SEO que compartieran datos anónimos conmigo, publicando un Twitter encuesta y llegar a algunos SEOs directamente.

SEO, necesito de 3 a 10 minutos de su tiempo.
¿Puede ayudarme con mi investigación sobre la indexación y compartir algunas estadísticas de GSC no confidenciales conmigo?
Cuando encuentre algunas ideas interesantes, publicaré un artículo al respecto.

¡Gracias de antemano! Por favor R/T

🙏🙏 https://t.co/vAwMulQtsx

– Tomek Rudzki (@TomekRudzki) 9 de noviembre de 2020

Ambos demostraron ser fructíferas fuentes de información.

Excluyendo páginas no indexables

Le conviene dejar algunas páginas fuera de la indexación. Estos incluyen direcciones URL antiguas, artículos que ya no son relevantes, parámetros de filtro en el comercio electrónico y más.

Los webmasters pueden asegurarse de que Google los ignore de varias maneras, incluido el archivo robots.txt y la etiqueta noindex.

Tener en cuenta dichas páginas afectaría negativamente la calidad de mis hallazgos, por lo que eliminé las páginas que cumplían con cualquiera de los siguientes criterios de la muestra:

  • Bloqueado por robots.txt.
  • Marcado como noindex.
  • Redirigido.
  • Devolver un código de estado HTTP 404.

Excluyendo páginas no valiosas

Para mejorar aún más la calidad de mi muestra, consideré solo aquellas páginas que están incluidas en los mapas del sitio.

Según mi experiencia, los sitemaps son la representación más clara de las URL valiosas de un sitio web determinado.

Por supuesto, hay muchos sitios web que tienen basura en sus mapas de sitio. Algunos incluso incluyen las mismas URL en sus mapas de sitio y archivos robots.txt.

Pero me encargué de eso en el paso anterior.

Categorización de datos

Descubrí que los problemas de indexación populares varían según el tamaño de un sitio web.

Así es como divido los datos:

  • Sitios web pequeños (hasta 10k páginas).
  • Sitios web medianos (de 10k a 100k páginas).
  • Grandes sitios web (hasta un millón de páginas).
  • Grandes sitios web (más de 1 millón de páginas).

Debido a las diferencias en el tamaño de los sitios web de mi muestra, tuve que encontrar una manera de normalizar los datos.

Un sitio web muy grande que lucha con un problema en particular podría superar los problemas que pueden tener otros sitios web más pequeños.

Así que miré cada sitio web individualmente para clasificar los problemas de indexación con los que luchan. Luego, asigné puntos a los problemas de indexación en función de la cantidad de páginas que se vieron afectadas por un problema determinado en un sitio web determinado.

Y el veredicto es…

Estos son los cinco problemas principales que encontré en sitios web de todos los tamaños.

  1. Rastreado: actualmente no indexado (problema de calidad).
  2. Contenido duplicado.
  3. Descubierto: actualmente no indexado (presupuesto de rastreo/problema de calidad).
  4. 404 suave.
  5. Problema de rastreo.

Vamos a desglosarlos.

Calidad

Los problemas de calidad incluyen que sus páginas tengan poco contenido, sean engañosas o demasiado sesgadas.

Si su página no proporciona contenido único y valioso que Google quiere mostrar a los usuarios, tendrá dificultades para indexarla (y no debería sorprenderse).

Contenido duplicado

Google puede reconocer algunas de sus páginas como contenido duplicado, incluso si no fue su intención que eso sucediera.

Un problema común son las etiquetas canónicas que apuntan a diferentes páginas. El resultado es que la página original no se indexa.

Si tiene contenido duplicado, use el atributo de etiqueta canónica o una redirección 301.

Esto lo ayudará a asegurarse de que las mismas páginas de su sitio no compitan entre sí por las vistas, los clics y los enlaces.

Presupuesto de rastreo

¿Qué es el presupuesto de rastreo? En función de varios factores, Googlebot solo rastreará una cierta cantidad de URL en cada sitio web.

Esto significa que la optimización es vital; no dejes que pierda el tiempo en páginas que no te interesan.

404 suaves

Los errores 404 significan que envió una página eliminada o inexistente para su indexación. Los 404 suaves muestran información “no encontrada”, pero no devuelven el código de estado HTTP 404 al servidor.

Redirigir las páginas eliminadas a otras irrelevantes es un error común.

Múltiples redireccionamientos también pueden aparecer como errores 404 leves. Esfuércese por acortar sus cadenas de redireccionamiento tanto como sea posible.

Problema de rastreo

Hay muchos problemas de rastreo, pero uno importante es un problema con robots.txt. Si Googlebot encuentra un archivo robots.txt para su sitio pero no puede acceder a él, no rastreará el sitio en absoluto.

Finalmente, veamos los resultados para diferentes tamaños de sitios web.

Sitios web pequeños

Tamaño de la muestra: 44 sitios

  1. Rastreado, actualmente no indexado (problema de presupuesto de rastreo o calidad).
  2. Contenido duplicado.
  3. Problema de presupuesto de rastreo.
  4. 404 suave.
  5. Problema de rastreo.

Sitios web medianos

Tamaño de la muestra: 8 sitios

  1. Contenido duplicado.
  2. Descubierto, actualmente no indexado (presupuesto de rastreo/problema de calidad).
  3. Rastreado, actualmente no indexado (problema de calidad).
  4. suave 404 (problema de calidad).
  5. Problema de rastreo.

Grandes sitios web

Tamaño de la muestra: 9 sitios

  1. Rastreado, actualmente no indexado (problema de calidad).
  2. Descubierto, actualmente no indexado (presupuesto de rastreo/problema de calidad).
  3. Contenido duplicado.
  4. 404 suave.
  5. Problema de rastreo.

Grandes sitios web

Tamaño de la muestra: 9 sitios

  1. Rastreado, actualmente no indexado (problema de calidad).
  2. Descubierto, actualmente no indexado (presupuesto de rastreo/problema de calidad).
  3. Contenido duplicado (URL duplicada enviada no seleccionada como canónica).
  4. 404 suave.
  5. Problema de rastreo.

Puntos clave sobre problemas comunes de indexación

Es interesante que, según estos hallazgos, dos tamaños de sitios web estén sufriendo los mismos problemas. Esto demuestra lo difícil que es mantener la calidad en el caso de sitios web grandes.

  • Mayor que 100k, pero menor que 1 millón.
  • Más grande que 1 millón.

Las conclusiones, sin embargo, son que:

  • Incluso los sitios web relativamente pequeños (más de 10 000) pueden no estar completamente indexados debido a un presupuesto de rastreo insuficiente.
  • Cuanto más grande es el sitio web, más apremiantes se vuelven los problemas de presupuesto de rastreo/calidad.
  • El problema del contenido duplicado es grave, pero cambia de naturaleza según el sitio web.

PD Una nota sobre las URL desconocidas para Google

Durante mi investigación, me di cuenta de que hay un problema más común que impide que las páginas se indexen.

Puede que no se haya ganado su lugar en las clasificaciones anteriores, pero sigue siendo importante y me sorprendió ver que sigue siendo tan popular.

Estoy hablando de páginas huérfanas.

Algunas páginas de su sitio web pueden no tener enlaces internos que conduzcan a ellas.

Si no hay una ruta para que Googlebot encuentre una página a través de su sitio web, es posible que no la encuentre.

¿Cual es la solución? Agregar enlaces de páginas relacionadas.

También puede solucionar esto manualmente agregando la página huérfana a su mapa del sitio. Desafortunadamente, muchos webmasters todavía se niegan a hacer esto.

Botón volver arriba