Los investigadores de Microsoft han mostrado un nuevo sistema de inteligencia artificial (IA) que a través del entrenamiento con pares de imagen-texto pueden imitar la forma en la que los humanos comprenden su entorno.

Microsoft presenta este nuevo sistema a través del documento Capacitación previa unificada en lenguaje y visión para subtítulos de imágenes y VQA, un sistema unificado que hace las veces de un codificador y decodificador de modelo único.

Microsoft, inteligencia artificial entrenada

De acuerdo con el blog de Microsoft, la compañía de Redmond ha logrado construir un sistema capaz de analizar dos tareas dispares, como los subtítulos de imágenes y las respuestas visuales a preguntas (VQA).

A través de un sistema codificador-decodificador de un solo modelo Vision-Language Pre-training (VLP) que será capaz de generar descripciones de imágenes y responder a preguntas en lenguaje natural sobre el entorno al igual que los humanos.

Más de tres millones de pares

Según los investigadores, este sistema fue pre-entrenado utilizando tres millones de pares de imagen-texto, una ventaja con la que no han contado estudios anteriores a este modelo VLP, que se vale de una red de transformadores multicapa compartida para cada codificación y decodificación.

Microsoft expande Your Phone a dispositivos Samsung Galaxy A

VLP además incorpora “máscaras especiales” que permiten que un solo modelo realice tareas de generación y comprensión en una determinada escena, y posee una arquitectura complementaria “para la predicción bidireccional y secuencia a secuencia”, que no poseen los modelos anteriores.

Mejores resultados

Finalmente, los investigadores señalan que durante la investigación VLP no solo fue capaz de ingresar detalles adicionales al generar subtítulos, sino que además también proporcionó respuestas a preguntas desafiantes de forma correcta donde otros modelos han fallado.

Factores que le permitirán centrar bases para futuros estudios, y que sin lugar a dudas podrán contribuir de forma significativa en el proceso de la paridad humana.

Más en TekCrispy