Nuevo chatbot en euskera para ser instalado en servidores propios: Kimu

Orai ha creado un modelo ligero que funciona bien en euskera y que puede adaptarse fácilmente a las necesidades de las empresas y de las instituciones

Puede utilizarse para tareas diversas: responder a preguntas sobre documentos, crear contenidos, elaborar resúmenes y traducciones, corregir textos, etc. Foto: Orai

Orai ha desarrollado un chatbot en euskera capaz de ayudar en el día a día a empresas e instituciones: Kimu. La ligereza del modelo permite su instalación en servidores y ordenadores de empresas e instituciones, lo que posibilita preservar la privacidad y confidencialidad de los datos. El modelo es capaz de comprender y ejecutar las tareas solicitadas por el usuario en euskera utilizando un lenguaje natural: “Puede utilizarse en tareas diversas como, por ejemplo, elaborar traducciones y resúmenes, responder preguntas sobre documentos, extraer información, corregir o adecuar textos…”, ha explicado Xabier Saralegi, responsable de Tecnologías NLP de Orai. No obstante, en función de las necesidades de empresas e instituciones, existe la posibilidad de especializar el modelo para realizar determinadas tareas y de ese modo mejorar la calidad de los resultados. Por otra parte, si bien Kimu se ha creado para el euskera, ofrece buenos resultados también en otras lenguas: castellano, inglés, italiano...

Una de las principales ventajas de Kimu es su reducido tamaño: cuenta con 9.000 millones de parámetros y se encuadra en la categoría de pequeños modelos de lenguaje (SML Small Language Models) dentro de los LLM. Los pequeños modelos de lenguaje libres ofrecen resultados competitivos en las grandes lenguas (castellano, inglés, etc.), pero no en las lenguas con recursos limitados, como es el caso del euskera Y las lenguas pequeñas no tienen recursos suficientes para crear ese tipo de modelos desde cero. De hecho, los investigadores de Orai investigan, entre otras cosas, cómo integrar las competencias del euskera en pequeños modelos de lenguaje a través de la transferencia lingüística.

Frente a ChatGPT, DeepSeek, Claude y otros LLM, los modelos SLM, aunque de menor tamaño, ofrecen una calidad competitiva, sobre todo cuando se adaptan para desempeñar determinadas tareas, y presentan, en general, algunas ventajas notables: son más ligeros y rápidos, requieren menos recursos y consumen menos energía. “Se reduce considerablemente el coste del hardware que necesita el modelo. Es decir, la máquina necesaria para instalar el modelo es más barata. Los modelos libres más grandes necesitan máquinas mucho más caras y la mejora que ofrecen en la calidad de los resultados no es muy acusada en muchas de las tareas. Por lo tanto, desde el punto de vista del equilibrio entre la calidad de los resultados y el consumo, este modelo para el euskera es excepcional”, ha afirmado Saralegi. Además, este tipo de modelos ligeros pueden personalizarse más fácilmente para adaptarse a determinados dominios y son más sostenibles desde el punto de vista medioambiental.

A fin de mostrar la capacidad y el potencial del modelo Kimu, Orai ha creado un sitio web Beta: https://kimu.orai.eus. En él, los usuarios podrán probar el modelo y, de momento, el acceso puede obtenerse mediante invitación.

Enseñar euskera a un modelo fundacional y combinarlo con un modelo capaz de realizar diversas tareas

Para conseguir grandes modelos de lenguaje, es fundamental manejar cantidades inmensas de datos y texto, algo que es difícil de obtener en lenguas de recursos limitados. El equipo investigador de Orai analiza diversas estrategias para conseguir soluciones válidas para el euskera, basándose para ello en modelos libres que ofrecen buenos resultados en otras lenguas.

Un ejemplo de dicho trabajo es Kimu: “Hemos combinado un modelo fundacional que hemos adaptado al euskera con un modelo instruido que no está adaptado al euskera”, ha explicado Ander Corral, investigador de Orai. Los modelos fundacionales se utilizan como base de la inteligencia artificial generativa y los modelos instruidos son capaces de comprender y ejecutar tareas. De ese modo, el equipo de Orai ha creado un modelo instruido capaz de seguir las instrucciones en euskera. 

El método utilizado solo requiere un corpus de textos para realizar la adaptación lingüística. Al modelo fundacional que no sabe bien euskera se le enseña euskera utilizando un corpus. “En la experimentación hemos utilizado el corpus Zelai Haundi, creado por Orai, un corpus de 500 millones de palabras, que alberga únicamente contenidos de licencia libre”, han explicado los investigadores de Orai. Los experimentos se han realizado con los modelos Gemma de Google y Llama de Meta. Este tipo de modelos están diseñados para las grandes lenguas y no ofrecen buenos resultados con lenguas de recursos limitados. 

El equipo de Orai, además de con el euskera, ha experimentado también con el suajili y el galés “para comprobar si nuestro método sirve también para otras lenguas de recursos limitados. Y hemos visto que nuestro método ha conseguido mejorar notablemente los resultados de modelos base ya existentes”, añaden. 

LLM al servicio de empresas tecnológicas y centros de investigación 

Todos los modelos creados tanto para el euskera como para otras lenguas están disponibles en HuggingFace, la plataforma de referencia para compartir y utilizar modelos y recursos abiertos de inteligencia artificial, a fin de que tanto empresas tecnológicas como centros de investigación puedan utilizarlos en sus proyectos para desarrollar sistemas de inteligencia artificial generativa capaces de comprender el euskera (RAG, agentes conversacionales…). El artículo científico sobre esta investigación ha sido aceptado en la conferencia internacional EMNLP - Empirical Methods in Natural Language Processing, una de las conferencias más prestigiosas en el campo del procesamiento del lenguaje natural (NLP por su nombre en inglés), y el trabajo será presentado en noviembre.

Más noticias de Actividad empresarial / Enpresa jarduera