Uno de los desafíos más importantes para los investigadores del aprendizaje automático es crear un sistema de reconocimiento de voz altamente confiable y seguro. Hasta ahora, el entrenamiento de modelos de aprendizaje de lenguaje natural implica mucho tiempo invertido en el ´habla’ y la incorporación de millones de palabras, además de un hardware lo suficientemente potente que los procese en un período de tiempo coherente.

Sin embargo, los investigadores de IBM consideran tener la respuesta para aliviar la carga informática de estos sistemas. A través de un estudio reciente, los expertos del gigante tecnológico han propuesto una nueva arquitectura de procesamiento ‘distribuido’, que tiene la capacidad de acelerar el proceso de entrenamiento hasta 15 veces sin que se pierda la precisión del aprendizaje.

IBM explicó que al implementar esta técnica en un sistema que integra varias tarjetas gráficas, se lograría reducir el tiempo de entrenamiento de semanas a días. Los investigadores Wei Zhang, Brian Kingsbury y Xiaodong Cui, señalaron que los sistemas de reconocimiento de voz de Google y Amazon necesitan sistemas de codificación sofisticados para transformar las voces a través del aprendizaje profundo y así convertir la entrada en un texto legible por las personas.

Una computadora capaz de detectar emociones

En cambio, la solución planteada por IBM radica en el aumento de la cantidad de muestras que se pueden procesar al mismo tiempo, sin embargo, el proceso no se realiza de forma indiscriminada para no afectar la precisión del sistema. En vez de ello, los investigadores usan lo que ellos llaman un “enfoque basado en principios” que les permite aumentar la cantidad de muestras mientras que aplican un método de aprendizaje profundo llamado ADPSGD (asynchronous decentralized parallel stochastic gradient descent).

ADPSGD es un modelo descentralizado y asíncrono, lo que le confiere un nivel aceptable de precisión al modelo y permite acelerar ciertos tipos de inconvenientes de optimización. Durante las pruebas, este método redujo el tiempo de ejecución del trabajo de reconocimiento de voz, de una semana en una única GPU V100, a 11.5 horas en un entorno de 32 GPU. Los investigadores trabajan en algoritmos de trabajo que manejen muestras más grandes y sistemas especiales para hardware de mayor potencia.

Más en TekCrispy