Google KELM reduce el sesgo y mejora la precisión de los hechos

Google AI Blog anunció KELM, una forma que podría usarse para reducir el sesgo y el contenido tóxico en la búsqueda (conocimiento mejorado) en el pre-entrenamiento del modelo de lenguaje para mejorar la precisión fáctica y reducir el sesgo.

KELM TEKGEnTEKGEN convierte datos estructurados de gráficos de conocimiento en texto en lenguaje natural conocido como KELM Corpus

KELM utiliza datos fiables

Los investigadores de Google propusieron usar gráficos de conocimiento para mejorar la precisión de los hechos porque son una fuente confiable de datos.

Anuncio publicitario

Continuar leyendo a continuación

“Las fuentes alternativas de información son los gráficos de conocimiento (KG), que consisten en datos estructurados. Los KG son de naturaleza fáctica porque la información generalmente se extrae de fuentes más confiables, y los filtros de posprocesamiento y los editores humanos garantizan que se elimine el contenido inapropiado e incorrecto “.

¿Google utiliza KELM?

Google no ha indicado si KELM está en uso o no. KELM es un enfoque para la formación previa del modelo de lenguaje que muestra una gran promesa y se resumió en el blog de IA de Google.

Sesgo, precisión fáctica y resultados de búsqueda

Según el artículo de investigación, este enfoque mejora la precisión fáctica:

“Tiene las ventajas adicionales de una precisión fáctica mejorada y una toxicidad reducida en el modelo de lenguaje resultante”.

Esta investigación es importante porque reducir el sesgo y aumentar la precisión fáctica podría afectar más que la búsqueda

El KELM Corpus se ha lanzado bajo una licencia Creative Commons (CC BY-SA 2.0).

Eso significa que es posible que la influencia de KELM se extienda a muchas plataformas de búsqueda y redes sociales.

Vínculos indirectos con MUM

Google también ha indicado que el algoritmo MUM de próxima generación no se lanzará hasta que Google esté satisfecho de que el sesgo no afecta negativamente las respuestas que da.

Según el anuncio de Google MUM:

“Así como hemos probado cuidadosamente las muchas aplicaciones de BERT lanzadas desde 2019, MUM se someterá al mismo proceso que aplicamos estos modelos en la Búsqueda.
Específicamente, buscaremos patrones que puedan indicar sesgos en el aprendizaje automático para evitar introducir sesgos en nuestros sistemas “.

El enfoque de KELM apunta específicamente a la reducción de sesgos, lo que podría hacerlo valioso para desarrollar el algoritmo MUM.

El aprendizaje automático puede generar resultados sesgados

El artículo de investigación afirma que los datos que utilizan los modelos de lenguaje natural como BERT y GPT-3 para la formación pueden dar como resultado una “canalización” denominada “(PDF)

Exactitud fáctica mejorada del texto en lenguaje natural de TEKGEN

TEKGEN es la tecnología que los investigadores crearon para convertir datos estructurados en texto en lenguaje natural. Es este resultado final, texto fáctico, que se puede usar para crear el corpus KELM que luego se puede usar como parte del entrenamiento previo de aprendizaje automático para ayudar a evitar que el sesgo se introduzca en los algoritmos.

Los investigadores notaron que agregar esta información adicional de gráficos de conocimiento (corpus) en los datos de entrenamiento resultó en una mejor precisión de los hechos.

Anuncio publicitario

Continuar leyendo a continuación

El documento TEKGEN / KELM afirma:

“Mostramos además que verbalizar un KG completo y enciclopédico como Wikidata se puede utilizar para integrar KG estructurados y corpus de lenguaje natural.

… nuestro enfoque convierte el KG en texto natural, lo que permite que se integre sin problemas en los modelos de lenguaje existentes. Tiene las ventajas adicionales de una precisión fáctica mejorada y una toxicidad reducida en el modelo de lenguaje resultante “.

El artículo de KELM publicó una ilustración que muestra cómo un nodo de datos estructurados se concatena y luego se convierte desde allí a texto natural (verbalizado).

Dividí la ilustración en dos partes.

A continuación se muestra una imagen que representa datos estructurados de un gráfico de conocimiento. Los datos se concatenan al texto.

Captura de pantalla de la primera parte del proceso de conversión de TEKGEN

Concatenación de Google KELMLa imagen a continuación representa el siguiente paso del proceso de TEKGEN que toma el texto concatenado y lo convierte en un texto en lenguaje natural.

Captura de pantalla del texto convertido en texto en lenguaje natural

Datos del gráfico de conocimiento verbalizado de Google KELM

Generando el Corpus KELM

Hay otra ilustración que muestra cómo se genera el texto en lenguaje natural de KELM que se puede usar para el entrenamiento previo.

Anuncio publicitario

Continuar leyendo a continuación

El artículo de TEKGEN muestra esta ilustración más una descripción:

Cómo funciona TEKGEN

  • “En el Paso 1, los triples de KG se alinean con el texto de Wikipedia usando supervisión a distancia.
  • En los pasos 2 y 3, T5 se ajusta secuencialmente primero en este corpus, seguido de una pequeña cantidad de pasos en el corpus WebNLG,
  • En el Paso 4, BERT se ajusta para generar una puntuación de calidad semántica para las oraciones generadas con triples.
  • Los pasos 2, 3 y 4 juntos forman TEKGEN.
  • Para generar el corpus KELM, en el Paso 5, se crean subgráficos de entidad utilizando los recuentos de alineación de pares de relaciones del corpus de entrenamiento generado en el paso 1.
    Los triples del subgrafo se convierten luego en texto natural usando TEKGEN “.

Anuncio publicitario

Continuar leyendo a continuación

KELM trabaja para reducir el sesgo y promover la precisión

El artículo de KELM publicado en el blog de inteligencia artificial de Google afirma que KELM tiene aplicaciones del mundo real, particularmente para tareas de respuesta a preguntas que están explícitamente relacionadas con la recuperación de información (búsqueda) y el procesamiento del lenguaje natural (tecnologías como BERT y MUM).

Google investiga muchas cosas, algunas de las cuales parecen ser exploraciones de lo que es posible, pero por lo demás parecen callejones sin salida. La investigación que probablemente no se incluirá en el algoritmo de Google generalmente concluye con una declaración de que se necesita más investigación porque la tecnología no cumple con las expectativas de una forma u otra.

Pero ese no es el caso de la investigación de KELM y TEKGEN. De hecho, el artículo es optimista sobre la aplicación de los descubrimientos en el mundo real. Eso tiende a darle una mayor probabilidad de que KELM eventualmente pueda ingresar a la búsqueda de una forma u otra.

Así es como los investigadores concluyeron el artículo sobre KELM para reducir el sesgo:

“Esto tiene aplicaciones del mundo real para tareas intensivas en conocimiento, como la respuesta a preguntas, donde es esencial proporcionar conocimiento fáctico. Además, estos corpus se pueden aplicar en la formación previa de grandes modelos lingüísticos y, potencialmente, pueden reducir la toxicidad y mejorar la factualidad “.

Anuncio publicitario

Continuar leyendo a continuación

¿Se utilizará KELM en breve?

El reciente anuncio de Google del algoritmo MUM requiere precisión, para lo que se creó el corpus KELM. Pero la aplicación de KELM no se limita a MUM.

El hecho de que reducir el sesgo y la precisión fáctica sea una preocupación fundamental en la sociedad actual y que los investigadores sean optimistas acerca de los resultados tiende a darle una mayor probabilidad de ser utilizado de alguna forma en el futuro en la búsqueda.

Citas

Artículo de Google AI sobre KELM
KELM: Integración de gráficos de conocimiento con corpus de formación previa al modelo de lenguaje

Documento de investigación KELM (PDF)
Generación de corpus sintéticos basados ​​en gráficos de conocimiento para la formación previa del modelo de lenguaje mejorado

Corpus de entrenamiento de TEKGEN en GitHub

Publicaciones relacionadas

Botón volver arriba