"He vist al professor": la IA propaga faltas en catalán (por influencia del castellano)
Un estudio de la UPF alerta que el entrenamiento de la IA en inglés y castellano tiene consecuencias para la lengua
BarcelonaUn estudio de la Universitat Pompeu Fabra (UPF) demuestra que las herramientas de inteligencia artificial generativa (IA) más populares propagan faltas en catalán porque están entrenadas en castellano, además del inglés: se propagan formas no normativas en las estructuras gramaticales y el léxico catalán por influencia de estas lenguas globales. El estudio, liderado por el profesor Thomas Brochhagen del departamento de traducción y ciencias del lenguaje de la UPF y publicado en la revista Linguamática, es pionero en demostrar el sesgo hacia el castellano.
Para la investigadora Mireia Almena (UPF), "las IA no solo reproducen el lenguaje, sino que también influyen en su evolución y pueden tener un impacto mucho mayor en lenguas como el catalán, con menos volumen de contenido escrito en medios digitales, que sobre otros idiomas con más hablantes y capacidad de producción de textos como el inglés, el español o el chino". Por ello, piden a las instituciones que trabajen para mejorar estos sesgos. De hecho, la Fundació Accent Obert ya ha anunciado que harán pasar los exámenes oficiales de los estudiantes catalanes a las IA más populares para evaluar su conocimiento de catalán y de cultura catalana, para objetivar las carencias en este campo.
Escampar errores
El estudio ha analizado seis modelos tecnológicos, como ChatGPT y Gemini, a partir de un corpus de evaluación de 160 oraciones, correspondientes a ocho estructuras gramaticales diferentes que suelen plantear dudas en cuanto al uso de la preposición adecuada. Por ejemplo, en el caso del uso o no de la preposición ante objeto directo. En castellano se usa preposición mientras que en catalán la norma general es no usarla. Es decir, diríamos "he visto al profesor" en castellano y "he vist el professor" en catalán. También han detectado errores por factores ajenos al castellano en frases como "No soc gens propens d'enfadar-me [sería a enfadar-me] per bajanades".
A la hora de elegir preposiciones normativas o no, las IA multilingües se equivocan en un 55% de los casos por influencia del castellano y en un 4% de los casos por otros motivos, según el estudio. Las IA monolingües se equivocan en un 27% de los casos.