Se buscan maestros de catalán para Alexa y Siri

El Govern quiere generar un banco de voces para atraer a grandes y pequeñas empresas y que hagan herramientas virtuales en catalán

El caso del FBI contra el iPhone inviolable
4 min

BarcelonaSe buscan maestros para enseñar a las nuevas tecnologías a entender y hablar la lengua catalana. No hará falta que hayan estudiado filología, ni siquiera que se dediquen a la docencia. Cualquier persona, hable el dialecto que hable, puede serlo. El único requisito es que sepa hablar y leer catalán. Y cuanta más variedad y riqueza lingüística, mejor. El Govern, con la colaboración del Barcelona Supercomputing Center (BSC), pondrá en marcha el miércoles la campaña La nostra llengua, la teva veu para recoger voces de todo el territorio de habla catalana y, así, disponer de un banco de datos de uso público que sea atractivo para las empresas que desarrollan aplicaciones, asistentes de voz o traductores automáticos. El objetivo: tener un diccionario oral y virtual íntegramente en lengua catalana para conseguir que asistentes virtuales como Alexa o Siri no solo entiendan y respondan en catalán por escrito, como hasta ahora, sino que también lo hablen de manera coherente. Por ejemplo, hacer que los dispositivos sean capaces de distinguir los diferentes significados de la palabra “banco” en los diferentes contextos en los que se usa o perfeccionar los motores actuales de traducción catalán-castellano, claves para fomentar el conocimiento y el uso de una lengua.

Esta iniciativa forma parte de AINA, uno de los proyectes estrella de la Generalitat para el impulso del catalán también en la era digital y para hacerlo competitivo en un sector mayoritariamente dominado por idiomas globales como el inglés o el castellano. “Es una cuestión de derechos. Los catalanoparlantes tenemos derecho de relacionarnos en catalán y a que no suceda también con las máquinas aquello tan desgraciadamente cotidiano en la vida real que es tener que cambiar de lengua en una conversación”, ha explicado el vicepresidente del Govern y conseller de Políticas Digitales y Territorio, Jordi Puigneró. El nombre del proyecto rinde homenaje a la filóloga menorquina y activista de la normalización de la lengua catalana Aina Moll (1930-2019), la primera directora general de Política Lingüística de Catalunya entre los años 1980 y 1988. Además, las dos primeras letras también coinciden con el acrónimo de inteligencia artificial en inglés (IA), la tecnología a partir de la cual interaccionan las personas. 

AINA nació en 2020 y, desde entonces, ha conocido la sintaxis del catalán, que es la columna vertebral de la lengua y ha aprendido 1.700 millones de palabras y 95 millones de frases escritas, que se han obtenido a base de descargar textos de diferentes fuentes digitales en catalán. Pero la prioridad es hacer que ahora también entienda el léxico y la semántica, es decir las palabras y su significado, en su contexto –ámbitos concretos como el de la salud o el jurídico– y su registro –coloquial, literario o administrativo–. “Tenemos que dotarla de músculo y este es el paso que daremos con la recogida de voces”, ha explicado la responsable de la Unidad de Minería de Textos del BSC y coordinadora del proyecto AINA, Marta Villegas. En estos momentos, el proyecto dispone de 1.000 horas de voz en catalán y la idea es duplicarlas.

El objetivo del proyecto, sin embargo, no es crear aplicaciones en catalán de origen público, sino proporcionar a la industria el volumen suficiente de datos para poderlas hacer, y que solo la administración puede garantizar. “Si nosotros no cuidamos del catalán, si no hacemos este sobreesfuerzo para el sector digital, nadie más lo hará”, ha afirmado Puigneró, que ha admitido que, más adelante, y sin concretar fechas, la idea del Govern es disponer de herramientas propias en catalán. Para dar este salto, primero hace falta que las grandes empresas tecnológicas, pero también las pymes y los emprendedores, quieran desarrollar los recursos digitales en catalán, una lengua que cada vez tiene menos hablantes. Y para convencer al sector de que hay que “situar el catalán en el mapa digital”, hacen falta millones de datos, millones y millones de horas de voz en catalán de personas de todos los géneros, edades, variedades dialectales y registros.

La Generalitat destinará 13,5 millones de euros a la creación de este diccionario y los primeros pasos para disponer del diccionario se están dando con la grabación de las sesiones en el Parlament y los canales de YouTube con subtítulos. Con todo, la pieza clave será la participación de la ciudadanía, que lo podrá hacer a través de la iniciativa de Common Voice de Mozilla para el catalán. En esta plataforma, todo el mundo que lo quiera podrá leer y grabar un número ilimitado de frases (agrupadas de 5 en 5 pero sin límite) o validar los audios hechos por otras personas. Y a pesar de que esta colaboración se puede hacer de manera totalmente anónima, conocer los parámetros de género, edad y variante dialectal de la persona facilita mucho el trabajo de clasificar los datos de voz obtenidos y, a su vez, permite saber si se está contemplando toda la diversidad lingüística del catalán. Los interesados pueden apuntarse en el siguiente enlace.

La obtención de este volumen y concreción de datos es especialmente difícil para las lenguas minoritarias. Desde el 2020, se han generado 10 gigabytes de datos textuales en lengua catalana, pero hay que tener en cuenta que el diccionario inglés ocupa 825 y el castellano, 560. Además, hasta ahora, la mayoría del big data –los conjuntos de datos masivos se denominan corpus– en catalán es escrito. Por eso, el Govern pide ayuda a la población para que se grabe leyendo frases que puedan usarse después para enseñar a las máquinas a entender el catalán, incorporarlo y usarlo intuitivamente. “AINA viene para conquistar nuevos territorios y estos pasan inevitablemente por las nuevas plataformas”, ha insistido Puigneró.

stats