Domingo, 30 de junio de 2024

El Traductor de Google tiene 110 idiomas más gracias a la Inteligencia Artificial

Autor:

Robel Revelo

Actualizada:

28 Jun 2024 - 17:32

La última adición de idiomas sucedió en 2022, cuando el quechua se sumó a las lenguas que puede procesar el traductor de Google.

Ilustración con el logo del Traductor de Google y palabras en los nuevos idiomas que la plataforma acepta.

Autor: Robel Revelo

Actualizada:

28 Jun 2024 - 17:32

Ilustración con el logo del Traductor de Google y palabras en los nuevos idiomas que la plataforma acepta. - Foto: Google

La última adición de idiomas sucedió en 2022, cuando el quechua se sumó a las lenguas que puede procesar el traductor de Google.

¿Quién dice que la Inteligencia Artificial y los idiomas no pueden ir de la mano? El 27 de Junio de 2024, Google anunció que se suman 110 idiomas a su traductor usando modelos de IA.

La compañía estima que son 614 millones de personas las que hablan los nuevos idiomas que se añadieron, que serían cerca del 8% de la población.

Entre las nuevas lenguas, Google asegura que hay idiomas que son hablados por más de 100 millones de personas, mientras que otros son usados principalmente en comunidades pequeñas, por indígenas o por los pocos hablantes nativos que estos idiomas tienen.

Esto gracias a PaLM 2, un modelo de lenguaje lanzado en mayo de 2023 y que le permitirá a la compañía de Mountain View hacer su "más grande expansión hasta ahora" en el Traductor de Google.

No es la primera vez que se añaden idiomas al Traductor de Google

En 2022, Google añadió 22 lenguas a su servicio de traducción, con lo que en ese momento llegaron a ofrecer 133 idiomas. Sí, ahora esa cifra aumenta a 243 idiomas que el Traductor de Google acepta.

En esa ocasión se añadieron idiomas usados propios de América, como el Aymara (Bolivia, Chile, Perú), el Guaraní (Paraguay, Bolivia, Argentina, Brasil) y el Quechua (Perú, Bolivia, Ecuador). Además de varios idiomas usados en la India y África.

Vale decir que, en ese mismo año, antes de que la IA tuviera la fama que tiene ahora, Google inició un proyecto ambicioso: la Iniciativa de los 1.000 idiomas. Es decir, que la Inteligencia Artificial desarrollada por Google pudiera ser usada con las 1.000 lenguas más habladas del mundo.

Una mujer quechua, en 2013, junto a sus hijos. El qeuchua es un idioma aceptado por el Traductor de Google desde 2022.

Una mujer quechua, en 2013, junto a sus hijos. El qeuchua es un idioma aceptado por el Traductor de Google desde 2022.  Peter van der Sluijs / Wikimedia

¿Qué idiomas se suman al Traductor de Google?

Mountain View dio énfasis a siete idiomas principales, ya sea por la cantidad de hablantes que tienen, o por la ayuda o documentación disponible para entrenar a los modelos de Inteligencia Artificial en estos idiomas.

  • Afar: Es un idioma tonal hablado en Djibuti, Eritrea y Etiopía. De entre todos los idiomas en este lanzamiento, Google detalla que este es el que tuvo la mayor cantidad de contribuciones de la comunidad.
  • Cantonés: Uno de los idiomas más solicitados para el Traductor de Google y que representó un reto para que los modelos sean entrenados en esta lengua por su similaridad con el Mandarín
  • Manx: Es un idioma céltico hablado en la Isla de Man. En 1974 murió su último hablante nativo con lo que la lengua casi se extinguió también, aunque ahora hay cientos de hablantes en la isla que quiere recuperarlo.
  • NKo: Es una lengua mandinga estandarizada del África occidental que une a varios dialectos en un idioma común. Tiene un alfabeto único que fue inventado en 1949.
  • Punjabi (Shamukhi): Una variedad del Punjabi que usa la escritura perso-arábica, que recibe el nombre de shahmukhi. Es el idioma más hablado en Pakistán.
  • Tamazight (Amazigh): Un idioma berber usado en el norte de África de varios dialectos y que usa tanto la escritura latina como la Tifnag.
  • Tok Pisin: Es un idioma criollo inspirado en el inglés y que se usa como lingua franca en Papúa Nueva Guinea.

Aunque la lista es, evidentemente, mucho más extensa si se quiere conocer a los otros 103 idiomas restantes:

  • Abkhaz
  • Acehnés
  • Acholi
  • Alur
  • Avar
  • Awadhi
  • Balinés
  • Baluchi
  • Baoulé
  • Bashkir
  • Batak Karo
  • Batak Simalungun
  • Batak Toba
  • Bemba
  • Betawi
  • Bikol
  • Breton
  • Buryat
  • Chamorro
  • Chechen
  • Chuukés
  • Chuvash
  • Crimean Tatar
  • Dari
  • Dinka
  • Dombe
  • Dyula
  • Dzongkha
  • Faroés
  • Fijian
  • Fon
  • Friulian
  • Fulani
  • Ga
  • Hakha Chin
  • Hiligaynon
  • Hunsrik
  • Iban
  • Patois jamaiquino
  • Jingpo
  • Kalaallisut
  • Kanuri
  • Kapampangan
  • Khasi
  • Kiga
  • Kikongo
  • Kituba
  • Kokborok
  • Komi
  • Latgalian
  • Ligurian
  • Limburgish
  • Lombard
  • Luo
  • Madurés
  • Makassar
  • Malay (Jawi)
  • Mam
  • Marshallés
  • Marwadi
  • Mauritiano criollo
  • Meadow Mari
  • Minang
  • Nahuatl (Huasteca oriental)
  • Ndau
  • Ndebele (Sur)
  • Nepalbhasa (Newari)
  • Nuer
  • Occitan
  • Ossetian
  • Pangasinan
  • Papiamento
  • Portugés (Portugal)
  • Q'eqchi'
  • Romaní
  • Rundi
  • Sami (Norte)
  • Sango
  • Santali
  • Seychellés criollo
  • Shan
  • Siciliano
  • Silesiano
  • Susu
  • Swati
  • Tahitian
  • Tamazight (Tifinagh)
  • Tetum
  • Tibetano
  • Tiv
  • Tongano
  • Tswana
  • Tulu
  • Tumbuka
  • Tuvan
  • Udmurt
  • Venda
  • Veneciano
  • Waray
  • Wolof
  • Yakut
  • Maya Yucateca
  • Zapoteca