Desafíos en a construzión de corpus paralelos en aragonés: o camino enta ra traduzión automatica neuronal
Main Article Content
Abstract
El proyecto Traducción automática neuronal para las lenguas románicas de la península ibérica (TAN-IBE), financiado por el Ministerio de Ciencia, Innovación y Universidades, tiene como objetivo entrenar sistemas de traducción automática basados en redes neuronales para siete lenguas románicas de la península ibérica, entre ellas el aragonés. Estos sistemas se entrenan mediante corpus paralelos, es decir, recopilaciones masivas de datos alineados que pueden utilizarse con distintos fines. En lenguas como el castellano, el portugués o el catalán —que cuentan con recursos claramente superiores—, la recopilación de esos materiales no plantea grandes dificultades. En cambio, para lenguas como el aragonés, el asturiano o el aranés, esta tarea resulta compleja debido a la escasez de recursos y de herramientas disponibles. En el caso del aragonés, a ello se suman otros obstáculos, como el bajo grado de digitalización, la considerable magnitud de los corpus dialectales o la diversidad de grafías y normas, entre otros. Este artículo analiza las dificultades específicas a las que se enfrentan los investigadores al recopilar o construir corpus paralelos en lengua aragonesa, evalúa los recursos existentes y propone posibles soluciones y estrategias para superar esos obstáculos.