Captura de pantalla de conjunto de datos Tiny Images del MIT. Créditos: The Reporter

Muchos estudios que señalan los sesgos de racismo, clasismo y otros en la inteligencia artificial existen, si bien, muchos concluyen que esto se debe a que la cantidad de datos utilizados para el aprendizaje automático no es diversa, otros señalan que este sesgo podría deberse a movimientos realmente subjetivos con respecto a lo que les quiere enseñar a las redes neuronales. En este sentido, el MIT podría demostrar esta última premisa, pues un estudio reciente reveló que cantidad de data relacionada con racismo y misoginia era usada para entrenar a los sistemas de IA.

The Register informó que un conjunto masivo de datos usados en inteligencia artificial contenía imágenes y descripciones ofensivas, como consecuencia, el MIT removió el volumen de datos que se utilizó para entrenar cualquier cantidad de sistemas de aprendizaje automático, estos datos servían para que los modelos aprendieran a describir a las personas, sin embargo, estaba alimentado con imágenes y términos racistas y misoginias.

El MIT emitió un comunicado y una disculpa por lo sucedido:

Se nos ha señalado que el conjunto de datos de Tiny Images contiene algunos términos despectivos como categorías e imágenes ofensivas. Esto fue consecuencia del procedimiento automatizado de recopilación de datos que se basaba en sustantivos de WordNet. Estamos muy preocupados por esto y nos disculpamos con aquellos que pueden haber sido afectados.

80 Million Tiny Images, para enseñar racismo y misoginia

De acuerdo con el Instituto de Tecnología de Massachusetts, el conjunto de datos de capacitación llamado 80 Million Tiny Images contenía exactamente esa cantidad de imágenes usadas para entrenar los sistemas de aprendizaje automático. Este volumen de datos se creó en 2008 con el fin de “desarrollar técnicas avanzadas de detección”, dicho conjunto de datos se borró de Google Images el día de hoy después que The Register informara acerca del hecho.

Katyanna Quach de The Register explica que estos datos, además de describir de forma precisa a personas y objetos, también se usaron para calificar a las personas con un lenguaje despectivo y denigrante:

“Sin embargo, gracias al enfoque arrogante del MIT al armar su conjunto de capacitación, estos sistemas también pueden etiquetar a las mujeres como perras, y a las personas negras y asiáticas con lenguaje despectivo. La base de datos también contenía imágenes en primer plano de genitales femeninos marcados con la palabra C”.

El hallazgo lo realizó Vinay Prabhu, científico principal de la startup de privacidad UnifyID, y Abeba Birhane, candidata a un doctorado en el University College de Dublín. Quienes lo publicaron oficialmente en el documento titulado Large image datasets: A pyrrhic win for computer vision?, que actualmente se encuentra en manos de especialistas en el 2021 Workshop on Applications of Computer Vision conference. Una conferencia donde científicos de todo el mundo se reúnen a discutir acerca de este tipo de casos.

El sesgo en inteligencia artificial puede fomentar la discriminación racial y de género

Los científicos del MIT señalaron que debido a que se trataba de un gran volumen de datos e imágenes muy pequeñas, se procedió a desactivarlo por completo y solicitaron a investigadores y desarrolladores que dejaran de utilizar este conjunto de imágenes.

El conjunto de datos es demasiado grande (80 millones de imágenes) y las imágenes son tan pequeñas (32 x 32 píxeles) que puede ser difícil para las personas reconocer visualmente su contenido. Por lo tanto, la inspección manual, incluso si es posible, no garantizará que las imágenes ofensivas puedan eliminarse por completo.

Por lo tanto, hemos decidido retirar formalmente el conjunto de datos. Se ha desconectado y no se volverá a poner en línea. Le pedimos a la comunidad que se abstenga de usarlo en el futuro y que también elimine cualquier copia existente del conjunto de datos que pueda haberse descargado.

Si bien se trata de un movimiento muy importante el retirar el conjunto de datos por parte del MIT, esto no deja de ser delicado e importante, puesto que estos datos se usaron desde su creación en 2008 para entrenar a modelos de redes neuronales que asociaban imágenes con palabras con algún fin, es decir que muchos sistemas IA estuvieron aprendiendo términos raciales y misoginias en este proceso, poniendo en riesgo una vez más la integridad de las personas.

La periodista de The Register describió la información usada para entrenar de la siguiente manera:

“El problema clave es que el conjunto de datos incluye, por ejemplo, imágenes de personas negras y monos etiquetados con la palabra N; mujeres en bikini, o sosteniendo a sus hijos, prostitutas etiquetadas; partes de la anatomía etiquetadas con términos crudos; y así sucesivamente: vincular innecesariamente las imágenes cotidianas con insultos y lenguaje ofensivo, y generar prejuicios y prejuicios en futuros modelos de IA”.

De esta manera queda demostrado una vez más el gran sesgo racial presente en la IA, y cómo la participación humana puede definir en cierta forma el alcance de estas nuevas tecnologías. Es por esto que además de quedar demostrado se deben realizar muchas más investigaciones al respecto, pues esto ya no se trata de un “simple sesgo” pues se trata de sistemas que califican personas y ponen en riesgo sus vidas. Y no, no se trata de que la IA sea mala o racista, sino que lamentablemente, tal como esta investigación lo revela, lamentablemente “se les entrenó para esto”.

Más en TekCrispy