Búsqueda de audio de Google: ¿alguna vez será posible?

¿Alguna vez será posible que Google cree un índice de contenido de audio en el que los usuarios puedan buscar como páginas web?

Los resultados de las primeras pruebas, que Google publicó en un artículo de blog, indican que la búsqueda de audio es más difícil de lograr de lo que parece.

Los detalles de estas pruebas se comparten en un artículo escrito por Tim Olson, vicepresidente sénior de asociaciones estratégicas digitales en KQED.

Google se asocia con KQED en un esfuerzo conjunto para hacer que el audio sea más localizable.

Con la ayuda de KUNGFU.AI, un proveedor de servicios de IA, Google y KQED realizaron pruebas para determinar cómo transcribir audio de forma rápida y sin errores.

Esto es lo que descubrieron.

Las dificultades de la búsqueda de audio

El mayor obstáculo para que la búsqueda de audio sea una posibilidad es el hecho de que el audio debe convertirse en texto antes de poder buscarlo y ordenarlo.

Actualmente no hay forma de transcribir con precisión el audio de una manera que permita encontrarlo rápidamente.

La única forma en que sería posible la búsqueda de audio a escala mundial es a través de transcripciones automáticas. Las transcripciones manuales requerirían un tiempo y un esfuerzo considerables para los editores.

Olson de KQED señala que el nivel de precisión debe ser alto para las transcripciones de audio, especialmente cuando se trata de indexar noticias en audio. Los avances realizados hasta ahora en la conversión de voz a texto no cumplen actualmente con esos estándares.

Limitaciones de la tecnología actual de conversión de voz en texto

Google realizó pruebas con KQED y KUNGFU.AI aplicando las últimas herramientas de voz a texto a una colección de noticias en audio.

Se descubrieron limitaciones en la capacidad de la IA para identificar nombres propios (también conocidos como entidades nombradas).

Las entidades nombradas a veces necesitan contexto para ser entendidas para ser identificadas con precisión, algo que la IA no siempre tiene.

Olson da un ejemplo de las noticias de audio de KQED que contienen un discurso lleno de entidades nombradas que son contextuales a la región del Área de la Bahía:

“El audio de noticias locales de KQED es rico en referencias de entidades nombradas relacionadas con temas, personas, lugares y organizaciones que son contextuales a la región del Área de la Bahía. Los oradores usan acrónimos como “CHP” para la Patrulla de Carreteras de California y “la península” para el área que se extiende desde San Francisco hasta San José. Estos son más difíciles de identificar para la inteligencia artificial”.

Cuando no se entienden las entidades nombradas, la IA hace su mejor suposición de lo que se dijo. Sin embargo, esa es una solución inaceptable para la búsqueda web, porque una transcripción incorrecta puede cambiar todo el significado de lo que se dijo.

¿Que sigue?

Se continuará trabajando en la búsqueda de audio con planes para hacer que la tecnología sea ampliamente accesible cuando se desarrolle.

David Stoller, socio líder de noticias y publicaciones en Google, dice que la tecnología se compartirá abiertamente cuando se complete el trabajo en este proyecto.

“Uno de los pilares de Google New Initiative es incubar nuevos enfoques para problemas difíciles. Una vez completada, esta tecnología y las mejores prácticas asociadas se compartirán abiertamente, ampliando en gran medida el impacto anticipado”.

Los modelos de aprendizaje automático de hoy en día no están aprendiendo de sus errores, dice Olson de KQED, que es donde los humanos pueden necesitar intervenir.

El siguiente paso es probar un circuito de retroalimentación donde las salas de redacción ayuden a mejorar los modelos de aprendizaje automático mediante la identificación de errores de transcripción comunes.

“Confiamos en que, en un futuro cercano, las mejoras en estos modelos de voz a texto ayudarán a convertir audio a texto más rápido, lo que finalmente ayudará a las personas a encontrar noticias en audio de manera más efectiva”.

Fuente: Google

Publicaciones relacionadas

Botón volver arriba