Lengua

El traductor de Google incorpora al occitano entre 110 idiomas nuevos

La compañía aspira a llegar a las mil lenguas gracias a las nuevas herramientas de IA que ha desarrollado

2 min
La nueva herramienta de Google

BarcelonaGoogle Translate, traductor de Google, ha incorporado 110 nuevas lenguas. En concreto, ha pasado de tener 133 lenguas a tener 243. Entre las nuevas lenguas se encuentran el occitano, el bretón, el tibetano, el siciliano y el veneciano. El objetivo de la compañía es alcanzar las mil lenguas.

En 2022, Google ya anunció la incorporación de 24 lenguas gracias a Zero-Shot Machine Translation, un sistema capaz de traducir entre dos idiomas aunque nunca los hubiera visto. Por ejemplo, podía traducir entre coreano y japonés sin tener ejemplos y sin que le hubieran enseñado a hacerlo. En este nuevo paso que ha dado ahora, con la incorporación de más de un centenar de lenguas, Google ha utilizado el sistema PaLM2, el acrónimo de Pathways Language Model. Se trata de un modelo de lenguaje basado en transformadores de 540.000 millones de parámetros. Según Google, puede razonar, contar chistes, generar códigos y traducir.

Esta IA, según explica Google en su página web, es especialmente hábil relacionando lenguas y captando sus diferentes variedades. Las lenguas son muy diversas y tienen variedades regionales, dialectos o diferentes formas de pronunciar las palabras. "Muchas lenguas no tienen una forma estándar y, por tanto, es complicado escoger la variedad correcta. Por tanto, nuestra manera de aproximarnos a ellas es priorizando las formas más comunes. Por ejemplo, el romero tiene muchos dialectos en todo 'Europa. Nuestras traducciones se aproximan al romero vlax, que se habla sobre todo en el sudeste de Europa, pero también incorpora elementos vlax del norte de Europa y de las variantes balcánicas", afirma Google. Una cuarta parte de las nuevas incorporaciones provienen de África, lo que representa la mayor expansión de lenguas africanas hasta ahora, con la incorporación de idiomas como el fono, el kikongo, el luo, el ga, el swati , la venta y el wolof.

Las nuevas incorporaciones representan a más de 614 millones de hablantes, es decir, un 8% de la población mundial. Algunas, como el cantonés, están entre las principales lenguas del mundo, con más de cien millones de hablantes, y otras casi no tienen hablantes nativos pero, según Google, existen diferentes iniciativas que intentan recuperarlas, como el gaélico manx que se habla en Man, una pequeña isla del Archipiélago de las Islas Británicas, que se consideró prácticamente extinto con la muerte de su último hablante nativo, en 1974. Sin embargo, gracias a todo un movimiento que hubo para revivir idioma, como una radio y un centro de estudios, ahora tiene miles de hablantes.

Las nuevas lenguas que ha incorporado Google Translate:

  • Abkhaz
  • Acehnese
  • Acholi
  • Asunto
  • Aluro
  • Avar
  • Awadhi
  • Balinese
  • Baluchi
  • Baoulé
  • Bashkir
  • Batak Karo
  • Batak Simalungun
  • Batak Toba
  • Bemba
  • Betawi
  • Bikol
  • Bretón
  • Buryat
  • Cantonés
  • Chamorro
  • Chechen
  • Chuukese
  • Chuvash
  • Crimean Tatar
  • Dari
  • Dinka
  • Dombe
  • Dyula
  • Dzongkha
  • Feroés
  • Fiyian
  • Fondo
  • Friulano
  • Fulani
  • Ga
  • Hakha Chin
  • Hiligaynon
  • Hunsrik
  • Iban
  • Jamaican Patois
  • Jingpo
  • Kalaallisut
  • Kanuri
  • Kapampangan
  • Khasi
  • Kiga
  • Kikongo
  • Kituba
  • Kokborok
  • Komi
  • Latgalian
  • Liguriano
  • Limburgish
  • Lombardo
  • Luo
  • Madurese
  • Makassar
  • Malay (Jawi)
  • Mam
  • Manch
  • Marshallese
  • Marwadi
  • Mauritian Creole
  • Meadow Mari
  • Minang
  • Náhuatl (Eastern Huasteca)
  • Ndau
  • Ndebele (South)
  • Nepalbhasa (Newari)
  • NKo
  • Nuer
  • Occitano
  • Osetiano
  • Pangasinan
  • Papiamento
  • Portugués (Portugal)
  • Punjabi (Shahmukhi)
  • Q'eqchi'
  • Romero
  • Rundi
  • Sami (North)
  • Sango
  • Santali
  • Seychellois Creole
  • Shan
  • Siciliano
  • Silesiano
  • Susu
  • Swati
  • Tahitiano
  • Tamazight
  • Tamazight (Tifinagh)
  • Tetum
  • Tibetano
  • Tiv
  • Tok Pisin
  • Tongan
  • Tswana
  • Tulu
  • Tumbuka
  • Tuvan
  • Udmurt
  • Venta
  • Veneciano
  • Waray
  • Wólof
  • Yakut
  • Yucatec Maya
  • Zapotec
stats