Por @Alvy — 3 de noviembre de 2017

PanLex / Long Now Foundation / Carolyn Wachnicki


PanLex es un proyecto de la Long Now Foundation consistente en construir la base de datos léxica más grande del mundo con la misión de «superar las barreras del lenguaje en favor de los derechos humanos, la información y las oportunidades.» Como todo proyecto de la fundación tiene una pinta fascinante. Y utiliza una licencia libre Creative Commons para que cualquiera pueda hacer con él lo que quiera.

En este caso se trata de un trabajo de linguistas y tecnólogos, que va más allá de lo que podría parecer simplemente «construir un nuevo Google Translate». El proyecto partió de un reto planteado en 02004:

¿Es posible construir un gigantesco conjunto de wikcionarios y diccionarios de traducción que permitan crear un enorme diccionario multilingüe cuya cobertura sea sustancialmente mayor que la de cualquiera de sus partes?

La respuesta es que sí y las cifras son bastante impresionantes: tras diez años la base de datos ya incluye 2.500 diccionarios, 5.700 lenguas, 25 millones de palabras y 1.300 millones de traducciones. Gran parte de la labor se ha centrado en trabajar con lenguas minoritarias que no cuentan con demasiados medios propios.

PanLex funciona transformando miles de diccionarios de modo que tengan una estructura común, relacionando palabras por su significado, teniendo en cuenta las palabras polisémicas y otras circunstancias, surjan millones de traducciones apropiadas que en realidad no están actualmente en ningún diccionario concreto. Las palabras se ordenan según su sentido y probabilidad de ser correctas, mostrándose varias alternativas por si alguna no tiene una equivalencia directa.

La herramienta está accesible desde la web (PanLex Translate) aunque funciona regulín todavía. Permitex cosas como traducir directamente del Euskera al Zulú, algo que normalmente hay que hacer pasando por el inglés como idioma intermedio. (Por cierto: mesedez en euskera equivale a buza en zulú; por favor en castellano.)

Hay más detalles sobre el proyecto e información tanto en su web como en este artículo de la fundación: PanLex: Overcoming Language Barriers with the World’s Largest Lexical Translation Database.

Foto: Long Now Foundation / Carolyn Wachnicki

Relacionado:

Compartir en Flipboard Publicar / Tuitear Publicar