La mayoría de los asistentes virtuales que conocemos en la actualidad cuentan con la capacidad de comunicarse por voz con sus usuarios. Estos no solo pueden entender lo que estos les dicen, sino que también son capaces de reproducir palabras y frases a partir de los textos.

Debido a lo novedosa que es esta tecnología –o, mejor dicho, lo reciente del uso cotidiano de la misma– aún existe mucho campo de la misma por explorar. Por los momentos, los comandos por voz y movimiento apenas están comenzando a desarrollarse.

Como consecuencia, en muchas ocasiones estos pueden llegar a presentar muchas fallas. Microsoft estuvo consciente de esto y por ello decidió inmiscuirse y desarrollar un modelo propio que evitara caer en los errores que ya se consideran comunes para estos sistemas.

Ha nacido una nueva forma de hacer las cosas

En colaboración con la Universidad de Zhejiang, Microsoft desarrolló una nueva inteligencia artificial a la que bautizó FastSpeech. Tal como su nombre lo dice, una de las cosas que la caracteriza es su capacidad superior para generar contenidos auditivos coherentes en poco tiempo.

Esta IA se maneja a través del estilo de procesamiento neuronal que se utiliza en el machine learning. De este modo, el programa cuenta con la posibilidad de ir incorporando nuevos conocimientos de su ambiente a su base de datos para hacerse cada vez más eficiente.

¿Qué hace a FastSpeech diferente?

Por lo general, los programas de generación de voz que usan la mayoría de los asistentes virtuales aún no se encuentran en la totalidad de su capacidad–incluidos entre ellos Siri, Alexa y Google Assistant. Por ello, pueden presentarse problemas como que estos se demoren demasiado para procesar los datos y generar la voz.

¿Podría la inteligencia artificial salvar al periodismo?

Ello tomando en cuenta que trabajan con un sistema que primero maneja los contenidos como textos y después genera uno a uno los sonidos asociados a cada sílaba o palabra. Por otro lado, FastSpeech se salta este primer paso y trabaja directamente con los fonemas, lo que le permite ser mucho más veloz.

Arquitectura de FastSpeech.

De hecho, este programa ha demostrado ser capaz de generar y reproducir voces hasta 38 veces más rápido que los algoritmos convencionales. Pero ello no es todo, de hecho también cuenta con la posibilidad de ajustar su discurso según los tiempos fonéticos. Es decir que, no incurre en errores de otras plataformas que presentan todas las palabras en una cadencia monotonal que le quita fluidez a las oraciones.

FastSpeech en la práctica

Para poder poner a prueba todo esto que FastSpeech promete, sus propios creadores realizaron con él un experimento. Tomaron de un banco de audios todas las muestras que se encontraban disponibles (alrededor de 24 horas de audio).

Luego, dividieron estas en tres grupos: aprendizaje (para entrenar la IA), prueba (para verificar su capacidad) y validación (para verificar los resultados de las pruebas). Luego de ser sometido a las pruebas pertinentes, FastSpeech mostró estar a la altura de otros algoritmos desarrollados como el Tacotron 2 de Google y que incluso era capaz de superar el Transformer TTS en la capacidad de procesamiento de oraciones largas y complejas.

Asimismo, su uso demostró que también era capaz de evitar un problema común de estos reproductores: la omisión de palabras. Gracias al sistema de FastSpeech, cada sílaba tiene su tiempo y ello colabora a que ninguna se sobreponga a otra tanto como para hacerla “desaparecer”.

Referencias:

FastSpeech: Fast, Robust and Controllable Text to Speech: https://www.microsoft.com/en-us/research/publication/fastspeech-fast-robust-and-controllable-text-to-speech/

Más en TekCrispy