Luego de varias pruebas y ensayos, los investigadores afiliados a Google y al University College London consiguieron crear un modelo de inteligencia artificial (IA) capaz de controlar las características del habla con solo 30 minutos de datos.

Desde hace varios años, la IA y la robótica son áreas de la tecnología que han venido ganando terreno a medida que transcurren los años, a logrando avances más sorprendentes, y este proyecto es una prueba de ello.

Google AI, controla las características del habla

De acuerdo con la fuente, un estudio reciente que tiene sus orígenes en el mes de octubre del año pasado y fue aceptado en la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR) 2020, muestra como el tono, la emoción y la velocidad de habla pueden ser controlados e imitados con total cabalidad con tan solo procesar 30 minutos de datos.

Aunque su connotación puede ser completamente comercial, la corrección de voz asistida por IA podría eliminar de forma definitiva la necesidad de utilizar actores en la simulación de voces, aquellos denominados como doblajes de audio, pues esto, no solo permitiría ahorrar tiempo y dinero, sino que representa un enorme avance a nivel computacional.

Google aborda algo más que la voz

Si bien no es la primera vez que nos topamos con un sistema de este estilo, este modelo en particular permite imitar la voz con prosodia variable, es decir, entonación, estrés, ritmo y más a fondo, la emoción fija.

Según señala el estudio, los investigadores entrenaron el sistema con un conjunto de datos que comprende 72,405 grabaciones de 5 segundos aproximadamente proveniente de 40 hablantes de inglés.

Unas 45 horas de audio donde los oradores –actores de voz capacitados– leyeron fragmentos de texto con dos diferentes niveles de valencia: emociones(tristeza o felicidad), y excitación (emoción o energía).

Resultados positivos

Al finalizar, los investigadores obtuvieron seis posibles estados afectivos, los cuales fueron modelados y utilizados como etiquetas de emociones junto con etiquetas para la velocidad del habla, definidas como el número de sílabas, obteniendo resultados positivos y más reales sobre las expresiones humanas, y sonando muy diferente respecto al asistente de Google.

Resultados muy positivos, ya que según concluyen los investigadores este trabajo mejora la prosodia y ofrece beneficios potenciales para las interfaces hombre-computadora, beneficios que probablemente superen riesgos actuales, como las deepfakes.