Curiosidades de los sintetizadores de voz y la accesibilidad «texto a voz»

Por @Alvy — 15 de mayo de 2007

Es dificil resistirse a hacer clic en un enlace que dice prueba este sintetizador de voz. Al verlo en la anotación Sintetizadores de Voz de TuFunción allá que me fui. El sistema se llama Loquendo y me suena haberlo visto hace tiempo. La voz llamada Jorge es excepcionalmente buena, la de Carmen es la versión femenina, pero suena más extraña y menos natural. Lo mejor para pruebas de conversiones de «texto a voz» es probarlo con un texto cualquiera que tengas por ahí, no con el que viene de demostración. Aunque la página a veces da errores, la conversión de texto a un fichero MP3 me funcionó bien y el resultado es digno de película de ciencia ficción. No he investigado mucho más el sistema, pero parece estar disponible para muchos idiomas, acentos y con ciertos detalles «humanos», como códigos que puedes insertar para que carraspee, se ría y cosas así. Un resultado y con buenos detalles, que bien podrían calificarse de avance en el terreno de la digitalización de voz humana.

Esto me recordó algo interesantísimo que nos contó un profesor de la ONCE en una reunión informal que organizaron junto con la gente de Pixel y Dixel hace unas semanas, con un reducido grupo de bloggers, que me llamó mucho la atención, así que aprovecho para compartirlo.

Aunque mucha gente encuentra útil los TTS, este tipo de sistemas es especialmente relevante para las personas con discapacidades visuales. Existen muchos programas de accesibilidad capaces de «leer» lo que sale en la pantalla y a partir de ahí, convertirlo en voz – el más popular JAWS, también es muy bueno Orca. Algunos tienen mejor repertorio de voces o posibilidades de personalización. Pero aunque aparentemente «suenen bien», como en la demo, algunos no superan una prueba que es crítica para los ciegos: que se pueda cambiar la velocidad de la voz y especialmente que se siga entendiendo aunque se acelere sobremanera. [Ignoro si este sistema de Loquendo lo puede hacer o no, imagino que sí, pero la demo funciona sólo a ritmo normal.] La curiosa explicación del tema es esta:

Para una persona invidente, leer la pantalla de un programa, los menús o una página web es un proceso realmente lineal: de principio a final. Quienes usamos la vista podemos enfocarnos en la zona que nos llama la atención o queremos leer. Para un ciego, en cambio, cada vez que se cambia de página o se abre un menú, la narración de voz comienza desde cero. Imagina lo lento y aburrido que puede ser leer el menú Archivo con todas sus opciones, o todo lo que dice la ventana de «Imprimir», cada vez que usas esas funciones. O escuchar completa la cabecera de un periódico, o el menú lateral entero de un blog si eso es lo primero que aparece al cargar una página.

Por esta razón, y para ganar tiempo, quienes usan estos programas de texto-a-voz en su trabajo diario suelen «acelerar» la voz a un ritmo superior al normal. Se considera entre 180 y 200 palabras por minuto una velocidad normal de dicción. Hay gente que habla más rápido, tal vez a 225, 250 ó 275 palabras por minuto y se sigue entendiendo; también es la velocidad que alcanzan casi todos los sintetizadores de voz sin problemas de calidad. A partir de ese punto, para una persona no acostumbrada la «voz acelerada», escuchar eso es un auténtico galimatías. Pero una persona entrenada y acostumbrada, como es el caso de los ciegos que usan estos sistemas, puede escuchar 300 o incluso 400 palabras por minuto sin problemas. Y algunos programas pueden configurarse hasta 500 ppm. Escucharlo si nunca lo has hecho antes es increíble: no se entiende nada, es como el idioma de los marcianos en las películas o el de los delfines. Pero un ciego puede entenderlo sin problemas y ganar muchísimo tiempo al trabajar con el ordenador.

Imagino que con el entretamiento en cierto modo se aprenden ciertas secuencias sonoras memorizadas, como los menús más corrientes, y no serán importantes todos los detalles, sino algunos que cambian, que sobresaldrán sobre el resto. Tal vez es algo parecido a lo que sucede al leer una frase de un libro: la mayor parte de las personas no leen letra por letra o palabra por palabra, sino que de un vistazo captan la idea e incluso pueden ver lo que cambia (una errata) en una serie de patrones ya conocidos. Supongo también que la alta velocidad es más práctica a la hora de trabajar con los menús de los programas y las ventanas de diálogo, que tal vez para leer una noticia o un libro se usan velocidades más bajas. Los buenos programas de conversión de texto-a-voz pensados para invidentes hacen precisamente todo esto y son muy configurables. Por lo que nos contaron en la ONCE, el problema es que de esos no hay muchos y además son muy caros. Y los que vienen preintalados de fábrica en los sistemas operativos más populares (Windows, Mac OS X) no son gran cosa, como tampoco el resto de ayudas para accesibilidad que incorporan.

Otra curiosidad notable sobre accesibilidad que aprendí ese día es que en software educativo una de las mejores opciones para ciegos son las aplicaciones creadas especialmente en Flash. Hubiera apostado justo por lo contrario antes de la reunión, pero esa esa la realidad tal y como nos la contó el experto.

Actualización (16 de mayo de 2007): Kelmer nos cuenta que en Loquendo las voces suenan «conocidas» porque son de actores de doblaje bastante reconocibles: «Jorge» es Abel Folk y «Carmen» es Julia Martínez. Más: Juantomas me pasa un enlace a Guadalinex publica una versión de prueba de sus voces sintéticas, una reciente noticia sobre voces sintéticas desarrolladas por la Junta de Andalucia para Guadalinex con licencia libre Creative Commons. Se puede acceder a ellas aquí: Hispavoces y funcionan con los programas de texto-a-voz KSayIt y Orca bajo KDE/GNOME.