«La IA en euskera puede unirnos en lugar de separarnos»
El investigador Ander Barrena explica cómo nació Latxa, el modelo vasco de inteligencia artificial, y los retos de desarrollar tecnología en este idioma
La historia de la Torre de Babel ha abierto la charla de Ander Barrena, investigador del centro HiTZ (Centro Vasco de Tecnología del Lenguaje de ... la UPV/EHU) y profesor de la UPV/EHU, que ha ofrecido una conferencia en la Azoka de Durango sobre la evolución de la inteligencia artificial desde la mirada del euskera. Y, aunque admite que recurrir a un pasaje bíblico «no es muy científico», lo ha utilizado para plantear una pregunta provocadora: ¿qué habría pasado si los obreros de Babel hubieran tenido inteligencia artificial para comunicarse entre lenguas?
A partir de esa imagen, Barrena introduce la base del procesamiento del lenguaje y de los grandes modelos lingüísticos que hoy utilizan millones de personas. Ha desgranado cómo funcionan estas inteligencias artificiales —«dada una palabra o un contexto, predicen la siguiente»— y cómo se construyen: primero leyendo cantidades gigantescas de texto, después aprendiendo instrucciones y, finalmente, alineándose con preferencias humanas para evitar respuestas dañinas.
El reto llega cuando se observa la distribución global de los idiomas. Mientras el inglés concentra casi la mitad del texto usado para entrenar estos sistemas, el euskera apenas supone «un 0,031%». «La inteligencia artificial aprende de nosotros, de nuestros textos, de nuestras interacciones», recuerda. «Y si el euskera no está presente ahí, la tecnología tampoco lo reflejará».
Ante ese desafío, HiTZ diseñó su propio camino para crear 'Latxa', el gran modelo lingüístico vasco. «Intentamos conseguir un billón de palabras en euskera, pero llegamos a cuatro millones», ha explicado Barrena. Reunieron textos de ETB, Txikipedia y otras fuentes, pero la cifra seguía lejos de la escala necesaria. La clave fue otra estrategia: partir de un modelo ya entrenado en inglés y español y enseñarle euskera sin que olvidara lo aprendido. «Conservamos esos millones de palabras en otros idiomas y añadimos las nuestras. Así logramos la transferencia: que lo aprendido en inglés se represente también en euskera».
Examen para saber si la IA sabe euskera
Pero, ¿cómo saber si Latxa «sabe» euskera? La respuesta sorprende al público: pasaron el modelo por exámenes equivalentes al EGA. «Aprobó la mayoría», celebra Barrena. También lo sometieron a pruebas de predicción de palabras, evaluaciones humanas y comparativas con otros sistemas. «Logramos un modelo comparable al ChatGPT y que, además, funciona mejor en euskera», afirmó.
Barrena también ha abordado los riesgos y costes: desde el elevado consumo energético hasta el impacto social del despliegue masivo de estas tecnologías. Entrenar 'Latxa' requirió 56 tarjetas gráficas durante cinco días, «que no es mucho comparado con los gigantes, pero sigue siendo caro».
Para finalizar, Barrena ha señalado como metas la mejora constante, la ampliación de datos y un desarrollo tecnológico que no deje atrás a las lenguas minorizadas. Porque, como recuerda desde su metáfora inicial, si Babel simboliza la confusión, Latxa quiere ser lo contrario, una herramienta para que el euskera nos una, en vez de separarnos.
¿Tienes una suscripción? Inicia sesión