Los investigadores de Google propusieron un nuevo algoritmo de aprendizaje de refuerzo (RL) profundo que se basa en modelos de predicción de video llamado, Simulated Policy Learning (SimPLe) que utiliza modelos de juegos para aprender y realizar acciones.

De acuerdo a la fuente, el aprendizaje de refuerzo profundo es una técnica de entrenamiento de Inteligencia Artificial (IA) que emplea recompensas para impulsar las políticas de software hacia objetivos.

Aprendizaje profundo

La capacitación dentro de un entorno simulado o del mundo real de una IA requiere hasta más interacciones que lo que le lleva a un humano aprender las acciones de un juego para lograr una acción determinada, es por ello, que el grupo de investigadores propuso el uso de SimPLE para conseguir el dominio de los videojuegos.

SimPLE como una solución novedosa

Tal y como expresan los investigadores en el documento ‘Aprendizaje de refuerzo basado en modelos para Atari’ recientemente publicado, este estudio se basó en la exploración del cómo los modelos de predicción de vídeo permitían a los agentes resolver los juegos de Atari.

Una investigación que permitió que SimPLe en varios juegos de Atari lograra resultados competitivos con solo 100K de interacción entre el agente y el entorno a unos 400K frames, que se traduce en dos horas de juego en tiempo real.

Modelos de predicción como clave del éxito

Los científicos Łukasz Kaiser y Dumitru Erhan, han mencionado que los principios básicos que se encuentran detrás de este algoritmo están bien fundamentados, y se han empleado en varios métodos de aprendizaje de refuerzo basados ​​en modelos recientes, sin embargo, tal y como explican los investigadores entrenar un sistema de IA para jugar juegos requiere que se incluya un sistema de predicción.

Cortesía de: VenturaBeat

Pero, no cualquier sistema, sino uno que sea capaz de predecir el siguiente cuadro del juego, desde luego dada una secuencia de cuadros y comandos observados como por ejemplo, “izquierda”, “derecha”, “adelante”, “atrás”, destacando que justamente esta capacidad de predecir trayectorias es lo que le otorga el éxito al proyecto, ya que no se requieren de secuencias computacionales que a la final implican mayores prestaciones a nivel de procesamiento.

Finalmente, los investigadores mencionaron que estos experimentos duraron 100,000 interacciones, es decir, el equivalente a dos horas de juego, donde los agentes con políticas afinadas por SimPLe lograron alcanzar la máxima puntuación en el juego Pong y Freeway, y generaron ‘predicciones casi perfectas’ de hasta 50 pasos.