Los desarrolladores de Google han presentado una nueva herramienta de accesibilidad que le permite a las personas con deficiencia del habla expresarse de forma casi natural.

Con el auge de la tecnología resulta casi inédito que las personas no interactúen con algunos de los asistentes personales que se disponen en el mercado, como el Asistente de Google, Alexa, Siri, entre otras.

Google Parrotron, una herramienta de IA

Sin embargo, esta condición que hace que las personas tengan problemas para vocalizar palabras y frases afecta a más de 7.5 millones de personas nada más en los EE. UU., una situación que dificulta el que las personas puedan interactuar con los diferentes asistente personales.

En este sentido, la compañía de Mountain View presentó a Google Parrotron, una nueva herramienta que promete minimizar los errores de sustitución, eliminación e inserción de palabras en los modelos de habla causados, debido a afecciones físicas o neurológicas.

¿Cómo funciona?

Desde su blog Google menciona que esta herramienta llamada Parrotron consiste en “una única red neuronal profunda de extremo a extremo” que ha sido entrenada para convertir las frases u oraciones de un usuario con patrones de voz atípicos en un habla sintetizada fluida.

Cortesía de: ai.googleblog

Los investigadores explican que esto se logró usando corpus paralelos de pares de voz de entrada / salida, donde se construyó un modelo general de conversión de voz a voz del habla fluido estándar y luego, se añadió una fase de personalización que se encarga de ajustar los parámetros del modelo a estos patrones de voz atípicos.

Una tecnología que ayudó a que los usuarios con esta discapacidad puedan ser comprendidos por la API de reconocimiento de voz automático (ASR en inglés) de Google, arrojando una reducción favorable en la tasa de error de palabra, la cual pasó de 89% al 32%.

Google concluye que Parrotron permite que los usuarios con voz atípica puedan expresarse y ser entendido por otras personas y por las distintas interfaces de voz, añadiendo además que su enfoque de conversión de voz de extremo a extremo logra que se reproduzca la voz deseada del usuario.