¿Qué es la indexación semántica latente y por qué no es importante para el SEO?

Se hacen muchas afirmaciones sobre la indexación semántica latente (LSI) y las “palabras clave LSI” para SEO.

Algunos incluso dicen que Google se basa en “palabras clave LSI” para comprender las páginas web.

Esto se ha discutido durante casi veinte años y los hechos basados ​​en evidencia han estado ahí todo el tiempo.

Esta es la indexación semántica latente

La indexación semántica latente (también conocida como análisis semántico latente) es un método para analizar un conjunto de documentos con el fin de descubrir co-ocurrencias estadísticas de palabras que aparecen juntas que luego brindan información sobre los temas de esas palabras y documentos.

Dos de los problemas (entre varios) que LSI se propone resolver son las cuestiones de la sinonimia y la polisemia.

La sinonimia es una referencia a cuántas palabras pueden describir lo mismo.

Una persona que busca “recetas de panqueques” es igual a una búsqueda de “recetas de panqueques” (fuera del Reino Unido) porque los panqueques y los panqueques son sinónimos.

La polisemia se refiere a palabras y frases que tienen más de un significado. La palabra jaguar puede significar un animal, un automóvil o un equipo de fútbol americano.

LSI es capaz de predecir estadísticamente qué significado de una palabra representa analizando estadísticamente las palabras que coexisten con ella en un documento.

Si la palabra “jaguar” está acompañada en un documento por la palabra “Jacksonville”, es estadísticamente probable que la palabra “jaguar” sea una referencia a un equipo de fútbol americano.

Al comprender cómo se juntan las palabras, una computadora puede responder mejor a una consulta al asociar correctamente las palabras clave correctas a la consulta de búsqueda.

La patente de LSI se presentó el 15 de septiembre de 1988. Es una tecnología antigua que llegó años antes de que existiera Internet tal como la conocemos.

LSI no es nuevo ni es vanguardista.

Es importante entender que en 1988, LSI estaba avanzando en el estado del arte de la coincidencia de texto simple.

LSI precedió a Internet y se creó durante una época en que las computadoras Apple se veían así:

imagen de una computadora Apple Macintosh SE de 1988

LSI se creó cuando una computadora comercial popular (IBM AS/400) se veía así:

Imagen de una computadora IBM AS400 de 1988

LSI es una tecnología que se remonta a mucho tiempo atrás.

Al igual que las computadoras de 1988, el estado del arte en recuperación de información ha recorrido un largo camino en los últimos 30 años.

LSI no es práctico para la web

Una de las principales deficiencias del uso de la indexación semántica latente para toda la web es que los cálculos realizados para crear el análisis estadístico deben volver a calcularse cada vez que se publica e indexa una nueva página web.

Esta deficiencia se menciona en un artículo de investigación de 2003 (no de Google) sobre el uso de LSI para detectar correo no deseado (Using Latent Semantic Indexing to Filter Spam PDF).

El trabajo de investigación señala:

“Un problema con LSI es que no admite la adición ad-hoc de nuevos documentos una vez que se ha generado el conjunto semántico. Cualquier actualización de cualquier valor de celda cambiará el coeficiente en cualquier otro vector de palabra, ya que SVD usa todas las relaciones lineales en su dimensionalidad asignada para inducir vectores que predecirán cada muestra de texto en la que aparece la palabra…”

Le pregunté a Bill Slawski sobre la inadecuación de LSI para la recuperación de información de motores de búsqueda y estuvo de acuerdo, diciendo:

“LSI es un enfoque de indexación más antiguo desarrollado para bases de datos estáticas más pequeñas. Hay similitudes con las tecnologías más nuevas, como el uso de vectores de palabras o word2Vec.

Una de las limitaciones de LSI es que si se agrega contenido nuevo a un corpus, se requiere la indexación de todo el corpus, lo que hace que su utilidad sea limitada para un corpus que cambia rápidamente, como la Web”.

¿Existe un documento de investigación de palabras clave LSI de Google?

Algunos miembros de la comunidad de búsqueda creen que Google utiliza “palabras clave LSI” en su algoritmo de búsqueda como si LSI siguiera siendo una tecnología de vanguardia.

Para probarlo, algunos se refieren a un artículo de investigación de 2016 llamado Mejorar el agrupamiento de temas semánticos para consultas de búsqueda con co-ocurrencia de palabras y agrupamiento de bígrafos (PDF).

Ese trabajo de investigación no es en absoluto un ejemplo de indexación semántica latente. Es una tecnología completamente diferente.

De hecho, ese trabajo de investigación no trata tanto sobre LSI (también conocido como Análisis Semántico Latente) que cita un trabajo de investigación de LSI de 1999 ([5] T.Hofmann. Indexación semántica probabilística latente. …1999) como parte de una explicación de por qué LSI no es útil para el problema que los autores están tratando de resolver.

Esto es lo que dice:

“La asignación de dirichlet latente (LDA) y el análisis semántico probabilístico latente (PLSA) son técnicas ampliamente utilizadas para revelar temas latentes en datos de texto. …Estos modelos aprenden los temas ocultos aprovechando implícitamente los patrones de coocurrencia de palabras a nivel de documento.

Sin embargo, los textos cortos, como consultas de búsqueda, tweets o mensajes instantáneos, sufren escasez de datos, lo que causa problemas para las técnicas tradicionales de modelado de temas”.

Es un error usar el trabajo de investigación anterior como prueba de que Google usa LSI como un factor de clasificación importante. El documento no se trata de LSI y ni siquiera se trata de analizar páginas web.

Es un interesante trabajo de investigación de 2016 sobre búsquedas cortas de minería de datos para entender lo que significan.

Dejando de lado ese trabajo de investigación, sabemos que Google usa BERT y tecnologías de coincidencia neuronal para comprender las consultas de búsqueda en el mundo real.

Para resumir: el uso de ese trabajo de investigación para hacer una declaración definitiva sobre el algoritmo de clasificación de Google es incompleto.

¿Google utiliza palabras clave LSI?

En el marketing de búsqueda, hay dos tipos de datos fidedignos y fidedignos:

  1. Ideas fácticas que se basan en documentos públicos como trabajos de investigación y patentes.
  2. Ideas de SEO que se basan en lo que han revelado los Googlers.

Todo lo demás es mera opinión.

Es importante saber la diferencia.

John Mueller de Google ha sido directo al desacreditar el concepto de palabras clave LSI.

No existen las palabras clave LSI: cualquiera que le diga lo contrario está equivocado, lo siento.

— 🍌 John 🍌 (@JohnMu) 30 de julio de 2019

El destacado experto en patentes de búsqueda, Bill Slawski, también ha hablado abiertamente sobre la noción de indexación semántica latente y SEO.

Las declaraciones de Bill sobre LSI se basan en un profundo conocimiento de los algoritmos de Google, que ha compartido en artículos basados ​​en hechos (como aquí y aquí).

Bill Slawski tuitea su opinión informada sobre la indexación semántica latente

La indexación semántica latente no tiene nada que ver con el SEO: https://t.co/X6KcEt9vSm

1/3

— Bill Slawski ⚓ (@bill_slawski) 18 de agosto de 2020

Esos términos tienen su propia tecnología y procesos detrás de cómo se determinan, y no usan LSI. No hay nada “latente” en ellos. 3/3

— Bill Slawski ⚓ (@bill_slawski) 18 de agosto de 2020

Por qué Google está asociado con el análisis semántico latente

A pesar de que no hay ninguna prueba en términos de patentes y trabajos de investigación de que LSI/LSA sean factores importantes relacionados con la clasificación, Google todavía está asociado con la indexación semántica latente.

Una de las razones de esto es la adquisición por parte de Google en 2003 de una empresa llamada Applied Semantics.

Applied Semantics había creado una tecnología llamada Circa. Circa era un algoritmo de análisis semántico que se usaba en AdSense y también en Google AdWords.

Según el comunicado de prensa de Google:

“Applied Semantics es un innovador comprobado en el procesamiento de texto semántico y la publicidad en línea”, dijo Sergey Brin, cofundador y presidente de Tecnología de Google. “Esta adquisición permitirá a Google crear nuevas tecnologías que hagan que la publicidad en línea sea más útil para usuarios, editores y anunciantes por igual.

Los productos de Applied Semantics se basan en su tecnología patentada CIRCA, que comprende, organiza y extrae conocimientos de sitios web y repositorios de información de una manera que imita el pensamiento humano y permite una recuperación de información más eficaz. Una aplicación clave de la tecnología CIRCA es el producto AdSense de Applied Semantics que permite a los editores web comprender los temas clave de las páginas web para ofrecer anuncios altamente relevantes y dirigidos”.

Análisis semántico y SEO

La frase “Análisis semántico” fue una palabra de moda a principios de la década de 2000, quizás impulsada en parte por la tecnología de búsqueda semántica de Ask Jeeves.

La compra de Applied Semantics por parte de Google aceleró la tendencia de asociar a Google con la indexación semántica latente, a pesar de que no hay evidencia creíble.

Por lo tanto, en 2005, la comunidad de marketing de búsqueda estaba haciendo declaraciones sin fundamento como esta:

“Durante varios meses he notado cambios en la clasificación de sitios web en Google y estaba claro que algo había cambiado en su algoritmo.

Uno de los cambios más importantes es la probabilidad de que Google ahora le dé más peso a la indexación semántica latente (LSI).

Esto no debería sorprender si consideramos que Google compró Applied Semantics en abril de 2003 y, según los informes, ha estado publicando sus anuncios de AdSense utilizando la indexación semántica latente”.

El mito de SEO de que Google usa palabras clave LSI posiblemente se originó a partir de la popularidad de frases como “Análisis semántico”, “Indización semántica” y “Búsqueda semántica” que se convirtieron en palabras de moda de SEO, cobradas vida por la tecnología de búsqueda semántica de Ask Jeeves y la compra de Google de semántica. empresa de análisis de Semántica Aplicada.

Los hechos sobre la indexación semántica latente

LSI es un método muy antiguo para comprender de qué se trata un documento.

Fue patentado en 1988, mucho antes de que existiera Internet tal como lo conocemos.

La naturaleza de LSI hace que no sea adecuado para su aplicación en todo Internet con fines de recuperación de información.

No hay trabajos de investigación que muestren explícitamente que la indexación semántica latente es una característica importante del ranking de búsqueda de Google.

Los hechos presentados en este artículo muestran que esto ha sido así desde principios de la década de 2000.

Los rumores sobre el uso de LSI y LSA por parte de Google surgieron en 2003 después de que Google adquiriera Applied Semantics, la empresa que producía el producto de publicidad contextual AdSense.

Sin embargo, los Googlers han afirmado varias veces que Google no usa palabras clave LSI.

Permítanme decirlo de nuevo más fuerte para los que están en la parte de atrás: no existen las palabras clave de LSI.

Considerando la abrumadora cantidad de evidencia, es razonable afirmar que es un hecho que el concepto de LSI Keywords es falso.

Los hechos también indican que LSI no es una parte importante de los algoritmos de clasificación de Google.

Considerado a la luz de los avances recientes en IA, procesamiento de lenguaje natural y BERT, la idea de que Google usaría LSI de manera prominente como una función de clasificación es literalmente increíble y ridícula.

Imagen destacada del autor

Publicaciones relacionadas

Botón volver arriba