MelNet

Dos investigadores de inteligencia artificial de Facebook han logrado desarrollar una IA sintetizadora de voz capaz de copiar el sonido y entonación de la voz de cualquier persona con una precisión sencillamente asombrosa.

El secreto está en los espectrogramas

Antes de la aplicación de la IA al campo de la generación de voz mediante ordenador, los sintetizadores de voz no generaban audio, tan sólo iban ‘pegando’ fonemas pregrabados. Pero todo empezó a cambiar cuando, en 2016, Google DeepMind presentó al mundo WaveNet, la tecnología basada en machine learning responsable de generar la voz del Asistente de Google.

Pero ¿qué ha cambiado desde entonces? ¿Qué es lo que permite que MelNet suponga un salto cualitativo a la hora de imitar la voz humana? La clave de esta nueva tecnología radica en utilizar una red neuronal que ha sido entrenada usando espectogramas de alta resolución en lugar de los típicos diagramas de formas de onda.

Esto proporciona una representación más detallada y compacta de las frecuencias de audio, al lograr representar los patrones sutiles y característicos que diferencian unas voces de otras; y permite a la IA analizar los patrones del sonido de la voz y reproducirlos de un modo más realista de lo que era posible hasta ahora.

Nos quedaremos (por ahora) sin discursos: en su lugar tendremos deep fakes

Sin embargo, MelNet sufre alguna limitación que no afectaba a sus antecesores: no puede replicar de forma realista el modo en que la voz humana va variando a lo largo de un discurso. Esa es la razón por la que los creadores de MelNet han expuesto únicamente frases breves.

Curiosamente, los generadores de textos basados en IA sufren del mismo problema: es notablemente difícil mantener la coherencia del texto a lo largo de varios párrafos, incluso cuando se logra que las frases individuales la mantengan sin problemas.

Este avance es, sin embargo, revolucionario. Y, como toda revolución, no expone a beneficios (sistemas mejorados de apoyo para personas con problemas de habla, toda clase de aplicaciones en cine y TV…) y a peligros.

Pensemos por un momento en toda la clase de graves equívocos que surgirán ahora que no podemos fiarnos ni de lo que oyen nuestros oídos; en todas las noticias falsas que se difundirán manipulando las palabras de líderes políticos, celebridades, altos cargos de empresa…

Fuente noticia: https://www.xataka.com/
Fuente foto: freepik.es

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *