Las posibilidades de ChatGPT y de los grandes modelos de lenguaje parecen ilimitadas, pero solo porque el japonés no es nuestra lengua materna. En el otro extremo del mundo, muchos usuarios nipones tienen problemas para comunicarse con esta inteligencia artificial (IA) creada por la firma estadounidense OpenAI.
En palabras del famoso empresario Kazuhiko Nishi, “ChatGPT sigue siendo muy tonto”. A menudo confunde palabras, genera caracteres extremadamente raros o directamente ignora el idioma debido a las complejidades en su vocabulario. Por ello, Japón ha decidido construir su propia versión de ChatGPT: un chatbot que sea capaz de digerir sus textos y generar respuestas precisas.
Un chatbot más japonés

El gobierno japonés y las grandes empresas tecnológicas como NEC, Fujitsu y SoftBank están invirtiendo cientos de millones de dólares en la creación de sistemas de inteligencia artificial que se basen en la misma tecnología subyacente, los modelos de lenguaje grande (LLM), pero que utilicen el idioma japonés en lugar de traducciones de la versión en inglés. Y es que, existe una gran diferencia en ambos idiomas que puede llegar a confundir incluso a la máquina más inteligente.
Los LLM en inglés emplean un alfabeto que consta de 26 letras, las cuales se repiten en muchos otros idiomas como el español o el portugués. Pero el japonés se maneja con dos conjuntos de 48 caracteres básicos, más 2.136 caracteres chinos o kanji de uso habitual. Cada uno diferente al anterior en forma y propósito, por lo tanto, el ChatGPT que conocemos a menudo se queda corto en japonés.
En este sentido, la misteriosa capacidad de chatbot para mantener conversaciones similares a las humanas no se percibe en el país nipón. Esto es lo que ha llevado a que, en Japón, exista la preocupación de que los sistemas de inteligencia artificial entrenados con conjuntos de datos en otros idiomas no puedan aprender sus palabras.
“La estructura de las oraciones en japonés es completamente diferente a la del inglés. ChatGPT debe traducir una consulta japonesa al inglés, encontrar la respuesta y luego traducirla nuevamente al japonés. Dada esa complejidad, no sorprende que pueda tener problemas con el lenguaje”.
Keisuke Sakaguchi, investigador de la Universidad de Tohoku
Ahora bien, ¿se puede crear una versión propia de ChatGPT?

Para evaluar qué tan sensibles son los LLM a la cultura japonesa, un grupo de investigadores lanzó Rakuda: una clasificación de preguntas abiertas sobre temas japoneses. El cofundador le pidió a ChatGPT que comparara la fluidez cultural de las respuestas, y concluyó que el mejor LLM japonés de código abierto ocupa el cuarto lugar en Rakuda mientras GPT-4 ocupa el primero.
Los LLM suelen utilizar grandes cantidades de datos de fuentes disponibles públicamente para aprender los patrones del habla y la prosa naturales. Están capacitados para predecir la siguiente palabra basándose en las palabras anteriores de un texto, por lo tanto, pueden adaptarse para reflejar con precisión las prácticas culturales y el idioma de un país.
El Instituto de Tecnología de Tokio, la Universidad de Tohoku, Fujitsu y el grupo de centros de investigación RIKEN están usando ahora la supercomputadora japonesa Fugaku, una de las más rápidas del mundo, para fabricar esta nueva versión del chatbot. Se espera que se publique el próximo año con código abierto para todos los usuarios, a diferencia de GPT-4 y otros modelos propietarios.
Mientras tanto, otras empresas niponas ya están comercializando sus propias tecnologías LLM. Ahora, si se le solicita a ChatGPT que escriba un correo electrónico de solicitud de empleo en japonés, podría omitir expresiones estándar de cortesía y parecer una traducción obvia del inglés. Pero pronto un nuevo chatbot de IA podría ayudar a cerrar la brecha entre Japón y el resto del mundo.
Referencias:
Why Japan is building its own version of ChatGPT https://doi.org/10.1038/d41586-023-02868-z