Crean traductores automáticos de lenguas indígenas

ddddExpertos del IIMAS trabajan con procedimientos de traducción para wixárika y ayuuk
El principal reto es alimentar el sistema de cómputo con frases originarias equivalentes al español

Especialistas del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS) de la UNAM trabajan en la creación de un traductor de diferentes lenguas indígenas como el wixárika (Nayarit), ayuuk (Oaxaca), náhuatl (clásico y moderno), mexicanero (Durango) y yorinoqui (Estado de México).

Iván Vladimir Meza Ruiz, del Departamento de Ciencias de la Computación del IIMAS y titular del proyecto, señaló que estamos acostumbrados al uso de traductores que ofrecen las grandes compañías internacionales de español-inglés u otros idiomas.

Los datos del catálogo del Instituto Nacional de Lenguas Indígenas, arrojan que en México hay 68 agrupaciones lingüísticas las cuales tienen 364 variantes y solola empresa Microsoft desarrolló, en colaboración con universidades de Querétaro y Yucatán, software de interpretación del otomí y maya, como parte de su programa Heritage.

“¿Cómo se ayuda cuando hay una lengua de la que quedan muy pocos hablantes como el ayapaneco? De ella hay pocos registros, así que la tecnología probablemente llegue tarde para algunas y no podemos hacer las 68 oficiales, pero hay otras que sí tienen hablantes y que están floreciendo”, puntualizó Meza Ruiz.

Este trabajo inicio en 2014 debido a la relación de un estudiante con la comunidad wixárita, o mejor conocidos como huicholes.

El trabajo fue promotedor, y pronto causó la antención de mpas voluntarios principalmente aquellos que tienen relación con comunidades originarias, estudian una carrera técnica y trabajan con náhuatl, mexicanero y yoem noki. Por ejemplo, el investigador del IIMAS asesora a su estudiante de licenciatura César Cruz, en el IIMAS, para documentar el sistema inteligente para el mazahua, o como ellos se denominan J ñatio, que el alumno creó en forma de una aplicación para celular que se llama MazahuApp, la cual está a disposición a través de GoogleApps.

Otro ejemplo es el de su estudiante de maestría Delfino Zacarías Márquez Cruz, hablante de Ayuuk (mixe), quien trabaja en un método de interpretación, labor en la cual participaron varios miembros de su sitio de origen en la recolección de datos.

La idea surgió porque desde hacía tiempo quería diseñar un traductor, pero no sabía aterrizar mi idea, así que me acerqué al doctor Iván quien me propuso hacer la red neuronal, pero requería trabajo de campo porque cuando empecé no había recursos para entrenar el modelo y se necesitaba algo que se llama corpus que son los textos entre el español y la lengua que se quiere trabajar. El reto fue trabajarlos, encontrar quien traduzca y que las personas estén dispuestas a compartir, compartió Zacarías Márquez.

Meza Ruiz detalló que para este trabajo se usan redes neuronales, un modelo computacional que imita un proceso, que en este caso es la traducción de una lengua a otra, por lo que requieren ejemplos, como datos de frases traducidas entre ambas.

Meza Ruiz explicó que los elaborados hasta ahora, incluidos los de Microsoft, son deficientes porque este tipo de tecnologías son más exitosas cuando tienen un cuerpo de datos, es decir, millones de ejemplos de frases equivalentes en ambos idiomas para que el programa aprenda a reconocerlas.

“Para lenguas originarias los corpus más grandes están cerca de los 10 mil ejemplos, en comparación con los millones de los sistemas comerciales. Estamos muy lejos de tener una experiencia similar a la que tenemos al usar un traductor normal, porque tenemos muy poquitos datos. Esa es parte de nuestra batalla ahorita: conseguir más datos e incrementar nuestros ejemplos”, destacó Zacarías Márquez.

Es complicado citar todas las características de lenguas que son en mayor medida orales, porque aún no se sabe cómo se escriben palabras, conceptos e inclusive frases completas.

El caso del wixárika se compone de numerosos vocablos con partículas morfológicas, entonces lo que para nosotros puede ser una frase para ellos es una sola palabra, una situación difícil de procesar para las redes neuronales.

Meza Ruiz indicó que también se tiene que tomar en cuanta algunas pérdidas en la traducción, pues para el huichol una oración se estructura en base a cuánta gente escucha lo que se dice y si hay alguien de mayor jerarquía que nosotros, algo que en español no se suele hacer y esto influye para que algunos textos queden incompletos.

Por ejemplo, la frase m’k’pa:pa ya p’-ta-ti-u-ti-wawi-ri-wa entre otras cosas indica que el evento descrito es visto por el hablante, situación que no se marca en español y la traducción más cercana sería: Ella siempre nos pide tortillas.

Para consultar estos trabajos, Zacarías Márquez dijo que en el caso del wixárika se cuenta con el sitio de internet http://turing.iimas.unam.mx/wix/, y está en proceso otro para el ayuuk.

Por último, el investigador destacó que se necesita más apoyo para este proyecto y para realizarlo de la mejor manera.

“Lo que hemos detectado es que hay un reconocimiento de los habitantes de México de que sí debemos apoyar a preservarlas, promover su uso, y tener un traductor automático podría ayudar a esto y a facilitar esta situación”, subrayó Zacarías Márquez.