El mundo del conocimiento no ha parado de expandirse desde hace décadas. Tanto así que, cada día en el mundo se publican docenas de estudios con nuevos descubrimientos originales o complementarios para investigaciones pasadas.

A pesar de que esto es tremendamente bueno debido a la cantidad de información que se maneja, presenta una enorme desventaja. Ningún científico humano puede ser capaz de acceder a y conocer todos los estudios que se han realizado en su área.

Como consecuencia, siempre se encontrará trabajando con menos información de la que podría y posiblemente los resultados no sean tan buenos como debería. La solución a ello se encontraba en la punta de nuestra nariz.

Después de todo, si ningún científico humano puede hacerlo, entonces es hora de ver si una máquina sí. Esta es la proposición que hicieron los investigadores del Laboratorio Nacional Lawrence Berkeley del Departamento de Energía de Estados Unidos al experimentar con las capacidades del algoritmo de NLP, Word2vec, en cuanto al procesamiento de datos.

¿Qué es el NLP?

Básicamente, estas son las siglas que identifican la nomenclatura: Natural Language Processing (Procesamiento del lenguaje natural). Con ellas se distinguen los algoritmos capaces de comprender las construcciones realizadas por el lenguaje humano.

En la actualidad, estos incluso cuentan con la capacidad de aprender nuevos términos a través de su contexto. Sí, tal cual como solemos hacerlo los humanos. Para este caso, los investigadores se decantaron por el Word2vec para realizar el experimento.

Este algoritmo ha estado disponible para ser utilizado desde el 2013. Sin embargo, fue escogido para esta misióna actual debido a que sus capacidades siguen siendo muy completas para la fecha. Entre ellas se encuentran: el aprendizaje con o sin supervision, la creación de grupos de contenido similar, reducción y agrupamiento de variables, predicción estructurada, detección de anomalías y funcionamiento neuronal artificial –diseñado para imitar el proceso de pensamiento animal y capaz de aprender a través de ejemplo.

¿En qué consistió el experimento?

Bajo la guía el autor principal del estudio, Vahe Tshitoyan, y del investigador principal, Anubhav Jain, el resto del equipo – John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova, Kristin A. Persson y Gerbrand Ceder– comenzaron a alimentar el sistema con estudios científicos. En total, el sistema terminó asimilando más de 3.3 millones de estos informes que fueron publicados entre 1992 y 2018.

Con ellos, pudo notarse que el sistema era capaz de aprender de lo que se le ofrecía incluso sin la supervisión humana. Asimismo, comenzó a generar predicciones basadas en el conocimiento adquirido que luego pudieron ser comprobadas por los investigadores.

Los resultados de este proyecto se publicaron en Nature International Journal of Science a inicios de julio de este año. Finalmente, el estudio fue titulado: “Incrustación de palabras captura conocimiento latente de los materiales literarios científicos”.

Por incrustación de palabras se refieren al proceso que realiza el algoritmo para adquirir nuevo conocimiento. Gracias a este, el sistema puede comenzar a asociar palabras que tengan el mismo significado y comenzar a desarrollar relaciones de contenido propias.

Los resultados fueron más allá de lo esperado

Como tal, los investigadores esperaban que el sistema fuera capaz de leer, entender y sintetizar la información de los trabajos científicos. De este modo, existiría una forma mucho más rápida y eficaz de tener acceso a los nuevos conocimientos que surgen día a día.

Sin embargo, las habilidades de predicción estructurada del algoritmo se salieron de lo que todos esperaban. Un ejemplo de ello es que en su nuevo conocimiento del término “termoeléctrico” y lo que hacen estos materiales, logró dar sugerencias sobre otros compuestos que podrían cumplir con sus características y funciones.

Las pruebas de laboratorio posteriores demostraron que las suposiciones de la máquina eran correctas. De hecho, en la actualidad ya han podido lanzar un listado de 50 nuevos materiales termoeléctricos que el algoritmo ayudó a descubrir.

Asimismo, para comprobar sus capacidades predictivas llenaron el sistema con datos de investigaciones pasadas. El algoritmo logró encontrar brechas, oportunidades de investigación y sacar conclusiones que habían sido comprobadas en estudios posteriores –que no habían sido ingresados al algoritmo.

Con una habilidad como esta en el pasado, los científicos estiman que el proceso de descubrimiento de muchos materiales habría ocurrido años antes. Ahora, con este hallazgo, tenemos la oportunidad de hacer grandes adelantos mientras trabajamos mano a mano con la tecnología.

Referencia:

Unsupervised word embeddings capture latent knowledge from materials science literature: https://www.nature.com/articles/s41586-019-1335-8