Cómo hacer un Sitio Web o Blog en 2024 - Guía fácil y Gratuita para Crear un Sitio Web

Este generador de voz de inteligencia artificial puede falsificar la voz de cualquier persona

Hablar se siente como la cosa más simple que hace el cuerpo humano, pero es bastante complicado ser emulado por una computadora. Alexa de Amazon, Siri de Apple e incluso el asistente de voz de Google son tan parecidos a una voz humana como cualquier IA, pero incluso esos suenan como computadoras. Lyrebird, una startup con sede en Montreal, ha desarrollado un generador de voz AI que puede imitar la voz de cualquier persona completa con una pizca de emoción humana natural. Este sistema aún no es perfecto, pero es bastante brillante para empezar. Podríamos estar caminando hacia un futuro donde la voz será tan fácil de falsificar como las fotos.

A medida que avanzan los sistemas de texto a voz, tendrán sus problemas específicos mientras sigamos usando las palabras pregrabadas de los actores de voz. Estas palabras cuando se combinan en cadenas de oraciones suenan muy robóticas sin inspiración, emoción o impacto en la entrega. Sin olvidar la misma voz monótona que tenemos que escuchar una y otra vez. Algunas personas incluso se han quejado de que los asistentes de voz solo tienen una voz femenina. Hay muchas razones para eso, pero no puedes dejar que nadie esté de acuerdo con esa única voz.

El algoritmo de imitación de voz de Lyrebird puede imitar la voz de cualquier persona e incluso leer un texto con emoción predefinida. El algoritmo no necesita más que un minuto de audio pregrabado para regenerar la voz con la entonación perfecta. La compañía utilizó grabaciones de Barack Obama, Hillary Clinton y Donald Trump y produjo audios simulados como parte de su campaña de promoción.

🔥 Leer:  Xbox Cloud Gaming para obtener compatibilidad con mouse y teclado

Además de copiar voces, el sistema puede generar la misma oración con varias entonaciones diferentes.

El algoritmo reconoce los patrones en el habla de una persona usando redes neuronales artificiales y luego reproduce los mismos patrones usando el habla simulada. José Sotelo, experto en síntesis de voz en Lyrebird, explicó: “Capacitamos a nuestros modelos en un gran conjunto de datos con miles de hablantes. Luego, para un nuevo orador, comprimimos su información en una pequeña tecla que contiene su ADN de voz. Usamos esta clave para decir nuevas oraciones “.

La forma actual del algoritmo tiene dichas capacidades, pero aún está lejos de que la voz humana real tenga problemas de claridad. El sistema requiere muchos menos datos de voz que los otros sistemas de este tipo, y la mejor parte es que funciona en tiempo real. José Sotelo dijo: “Actualmente estamos recaudando fondos y aumentando nuestro equipo de ingeniería. Estamos trabajando para mejorar la calidad del audio para que sea menos robótico, y esperamos comenzar las pruebas beta pronto ”.

El plan de la compañía es vender el sistema a los desarrolladores para su uso en aplicaciones como narración de audiolibros y síntesis de voz para personas con discapacidades y asistentes personales de inteligencia artificial. En el futuro, puede hacer que su asistente de voz suene como cualquier persona que desee.

Incluso antes de escuchar acerca de los brillantes usos del algoritmo, uno podría imaginar los problemas éticos y de seguridad que potencialmente puede causar. Una vez que el sistema se refina con una capacidad de imitación perfecta, será casi imposible diferenciar entre la voz humana real o el algoritmo de imitación. El ya ambiguo mundo de la verdad y la mentira se convertirá en un completo murmullo donde el discurso falso de cualquier persona puede usarse para engañar incluso a los expertos en seguridad. Este podría ser el final de la era en la que la grabación de audio es confiable y Lyrebird lo sabe.

🔥 Leer:  ¿Se puede conectar Apple TV a un punto de acceso móvil?

“Nos tomamos en serio las posibles aplicaciones maliciosas de nuestra tecnología. Queremos que esta tecnología se use con buenos propósitos: devolver la voz a las personas que la perdieron por enfermedad, poder grabarse en diferentes etapas de su vida y escuchar su voz más adelante, etc. Dado que esta tecnología podría ser desarrollada por En otros grupos con fines maliciosos, creemos que lo correcto es hacerlo público y conocido, por lo que dejamos de depender de las grabaciones de audio. [as evidence].

Con un problema viene la solución, y con algunas soluciones surgen problemas. Por más aterrador que pueda parecer, todos hemos pasado por el tiempo en que la evidencia de la imagen dejó de ser confiable con el avance del software de manipulación de fotos. Esto será similar, pero aunque un humano pueda ser engañado por un imitador, una computadora puede muy bien diferenciar la voz fabricada de la real. Se pueden desarrollar sistemas para detectar los signos que podrían ser la ausencia de ruidos de fondo, espacio acústico falso o cualquier diferencia similar.

Un día, la tecnología de síntesis del habla puede ser lo suficientemente refinada para poder replicar todo, ya sea calidad del habla, ruidos respiratorios, chasquidos de labios o cualquier otro detalle fino, hasta el punto en que ni siquiera una máquina pueda diferenciar lo real de lo real. El imitador. Ese día, todas las grabaciones de audio o evidencia de voz perderán su credibilidad.