Todo el mundo cuando habla sobre IA suele concentrarse más en la imagen y el texto. Pero, ¿qué sucede con las voces y su imitación? Esto nos lo responderán en breve los investigadores de Microsoft, pues revelaron recientemente una nueva herramienta IA capaz de simular la voz de alguien tan solo con una muestra de tres segundos.

La nueva herramienta se trata de un «modelo de lenguaje de códec neuronal» llamado VALL-E. Este se basa en la tecnología de compresión de audio EnCodec de Meta. Dicha herramienta utiliza IA para comprimir audio con una calidad mejor que la de un CD a velocidades de datos sin pérdida apreciable de calidad. Es cierto que Meta visualizó EnCodec como una forma de mejorar la calidad de las llamadas telefónicas en áreas con cobertura celular irregular, pero Microsoft visualizó otro uso. Por ello, está aprovechando la tecnología para lograr que la síntesis de texto a voz suene mejor a pesar de contar con una muestra limitada.

¿En qué se diferencia la IA de Microsoft?

IA Microsoft
IA de Microsoft

Los sistemas actuales de texto a voz pueden producir voces que suenan muy realistas, pero requieren de datos de entrenamiento de alta calidad y muy limpios. Por ello, el enfoque de Microsoft es novedoso. Debido a que hace que VALL-E pueda imitar  la voz de casi cualquier persona sin pasar semanas en un estudio de grabación. En lugar de eso, la herramienta es entrenada con el conjunto de datos Libri-light de Meta. Este contiene 60.000 horas de habla inglesa grabada de más de 7000 hablantes únicos. Y «extraídos y procesados de los audiolibros de LibriVox «, que son todos de dominio público.

Microsoft compartió una extensa colección de muestras generadas por VALL-E para que puedas escuchar por ti mismo sus capacidades de simulación de voz. Pero debemos advertirte que los resultados actualmente son mixtos. Así que, en ocasiones, la herramienta tiene problemas para recrear los acentos. Sin embargo, la mayoría de las veces, las muestras generadas por VALL-E suenan muy naturales. Al punto de ser casi imposibles de distinguir de la muestra original de tres segundos.

En su forma actual, VALL-E se limita a simular el habla inglesa, pero estamos seguros de que mejorará a medida que vaya ampiando su conjunto de datos de muestra. Sin embargo, dependerá de los investigadores de Microsoft mejorar VALL-E. Decimos esto porque el equipo no ha publicado el código fuente de la herramienta, ya que quieren mitigar el riesgo de que pueda ser usada en falsificaciones.

¿Te parece que la IA de Microsoft es una de las novedades recientes más interesantes en inteligencia artificial? Nosotros lo vemos como un gran avance que puede usarse para cosas muy útiles.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *