Las herramientas de IA están en auge. Estamos en un mercado donde todos quieren o necesitan alguna aplicación de inteligencia artificial. Hasta ahora, este tipo de herramientas IA habían sido usadas para campos prácticos de la medicina o construcción. Sin embargo, hace poco unos investigadores descubrieron que también podría usarse para generar imágenes artísticas. Y esto es posible gracias a los Investigadores de la Universidad de Waterloo y el Instituto Courant de la Universidad de Nueva York.
Lo más interesante que lograron los investigadores con esta herramienta de IA fue hacerla crear imágenes artísticas a partir de descripciones de texto. El método fue presentado en un artículo publicado previamente en arXiv, y se basa en una red antagónica generativa de memoria dinámica (DM-GAN), un modelo basado en dos redes neuronales artificiales que trabajan en conjunto para generar imágenes muy convincentes.
Qinghe Tian y Pr. Jean-Claude Franchitti escribieron en su artículo: “Creamos una solución integral que puede generar imágenes artísticas a partir de descripciones de texto”.
¿Cuál es la idea que está detrás de esta IA capaz de generar imágenes artísticas?
La idea que está detrás del trabajo reciente de Tian y Franchitti fue esta: crear un modelo capaz de realizar imágenes artísticas a partir de descripciones de texto proporcionadas por los usuarios. Esta herramienta será de gran utilidad para todas aquellas personas que presenten discapacidades que les impiden dibujar. También podría ser de utilidad para esos usuarios que no tienen talento para el dibujo y solo quieren producir imágenes artísticas que representen cosas específicas.
Uno de los mayores retos de los investigadores fue entrenar a su modelo de IA. Debido a que, hoy en día, la mayoría de los conjuntos de datos existentes para entrenar modelos generativos contienen textos etiquetados, en lugar de imágenes emparejadas con sus descripciones de texto. Por ello, los investigadores tuvieron que pensar en una forma alternativa de entrenar su modelo.
Al respecto, los investigadores comentaron: “Debido a la falta de conjuntos de datos con descripción de texto emparejado e imágenes artísticas, es difícil entrenar directamente un algoritmo que pueda crear arte basado en la entrada de texto. Para abordar este problema, dividimos nuestra tarea en tres pasos”.
Los pasos que llevaron a cabo los investigadores para entrenar su herramienta IA

- Lo primero que hicieron fue utilizar su modelo DM-GAN para generar una imagen realista que representa una descripción de texto.
- Después de ello, usaron ResNet, la cual es una red neuronal artificial con varias capas que sirve para clasificar la imagen producida por DM-GAN en una de las categorías de género descritas por el conjunto de datos de WikiArt.
- Luego de clasificar la imagen producida por DM-GAN en una de las categorías de género descritas por WikiArt, el modelo puede seleccionar un estilo de pintura compatible con esta categoría de género. Y, por último, transferirá la imagen generada utilizando una red de estilización artística neuronal.
- Los investigadores evaluaron su técnica de múltiples marcos y ejecutaron una serie de experimentos de prueba iniciales. Obtuvieron resultados bastante buenos, pero les gustaría mejorar su rendimiento en próximos trabajos.
¿Qué podría traernos en el futuro esta herramienta de IA para crear imágenes artísticas? La técnica desarrollada por Tian y Franchitti podría integrarse en aplicaciones gráficas y de dibujo. Esto sería un gran avance, ya que les permitiría a todas las personas crear imágenes artísticas de alta calidad. El código del modelo está disponible públicamente en GitHub y, en sus próximos estudios, el equipo planea comparar su rendimiento con el de otros métodos para la generación de imágenes. Los investigadores quieren mejorar la herramienta lo más posible.