Hoy en día, hay una sobrecarga de investigaciones que se publican en todo el mundo. En 2020 se publicaron más de 4,2 millones de artículos de investigación académica. ¿Cómo puede un investigador estar al tanto de todo mientras realiza su propia investigación? Cuando Meta abrió recientemente su modelo de lenguaje, OPT-175B, este sonaba prometedor para los investigadores académicos. Algunos dicen que ofrece un mejor rendimiento que GPT-3 de OpenAI y utiliza solo el 15 % de los recursos informáticos de GPT-3 para entrenarlo.
Poniendo a prueba el modelo de lenguaje de Meta

Bien, ¿cómo se desempeña el modelo de lenguaje de Meta en la investigación científica? Este fue probado primero en un comunicado de prensa técnico, y este fue el resumen que el modelo realizó:
“Declaraciones prospectivas, que se refieren solo a la fecha de este comunicado de prensa. Artelo no asume ninguna obligación de actualizar públicamente ninguna declaración prospectiva, ya sea como resultado de nueva información, eventos futuros u otros”.
Contacto de Relaciones con Inversores: Westwicke Partners en representación de Artelo Biosciences. Mike Piccinino, CFA.
No es un gran comienzo. Decimos esto porque el modelo se enfoca en la jerga legal del inversionista que se menciona al final del comunicado de prensa, calculando que es la información más importante que el lector debe saber. El modelo de lenguaje podría argumentar que es importante, pero no es lo que se estaba buscando. Y el contacto del inversionista ni siquiera es correcto, fue inventado por el modelo.
Más pruebas
A continuación, el modelo de lenguaje de Meta es puesto a prueba otra vez en un artículo del Journal of Electronic Materials:
Revista de MATERIALES ELECTRÓNICOS, vol. 38, No. 7, 2009 DOI: 10.1007/s11664-009-0701-y (cid:1) 2009 TMS Special Issue Paper térmicamente. Luego, las muestras se pulverizaron y analizaron por XRD, TGA y XPS. Los patrones XRD mostraron que CaCo2O4+d cristaliza como una estructura de tipo ferrita de calcio, que consiste en una red de octaedros de CoO6 compartidos en las esquinas y los bordes que incluyen cadenas dobles unidimensionales. La fase CaCo2O4+d tiene una densidad finita de estados en el nivel de Fermi. Los resultados de XPS mostraron que CaCo2O4+d tiene una composición de CaCo2O4+d = (Ca2CoO3)0.62CoO2. Los resultados de XPS también mostraron que CaCo2O4+d tiene
[ Fuente: Meta OPT-175B]
A primera vista, parece tener información importante. Sin embargo, hay información superflua, como los detalles del artículo que no son importantes para el resumen. Además, se describiría con más precisión el resultado como una paráfrasis de una parte del texto en lugar de un resumen.
Compararlo con un modelo de lenguaje más pequeño
Entonces, ¿cómo se compara el modelo de lenguaje de Meta con uno más pequeño? Unos investigadores diseñaron un modelo llamado IPG Iris.ai para tener solo 25 millones de parámetros, a diferencia de los 175 mil millones de Meta y OpenAI. Sin embargo, fue entrenado en millones de artículos científicos de dominio específico. La investigación ha demostrado que este modelo funciona de manera muy diferente en el mismo papel:
“La dependencia de la temperatura metálica del coeficiente de Seebeck s con una gran potencia termoeléctrica (s=151lv/kat387k) tiene una densidad finita de estados en el nivel de Fermi. En este artículo, informamos la estructura cristalina y las propiedades físicas de caco2o4+d. Encontramos un nuevo compuesto caco2o4+d, que exhibe una gran potencia termoeléctrica, aunque tiene una finita densidad de estados en el nivel de Fermi. Motivados por el principio rector simple mencionado anteriormente, buscamos nuevas propiedades termoeléctricas de fases relacionadas como un material termoeléctrico aplicable al uso a alta temperatura”.
[ Fuente: Iris.ai IPG]
La estructura de la oración es un poco más simple, pero la información es mucho más relevante. Es más, el costo computacional para generar ese resumen del artículo de noticias salió a menos de $0.23. Hacer lo mismo en OPT-175 costaría alrededor de $180.
¿Cuál es la solución para que modelos grandes como el de Meta funcionen?
La solución no se basa solo en entrenar el modelo GPT en papeles de materiales. Se puede entrenar al modelo GPT en documentos de materiales. Ello hará que haga un buen trabajo al resumirlos, pero los modelos de lenguaje grande son grandes, por lo que es muy difícil cambiar su dirección. Esto significa se necesitan cientos de miles de documentos de materiales. Y este es un problema: este volumen de documentos simplemente no existe para entrenar el modelo. Es cierto que los datos se pueden, pero esto reduce la calidad de los resultados: recordemos que la fortaleza de GPT proviene de la variedad de datos en los que se entrena.