Por @Alvy — 18 de agosto de 2022

A Zack Freedman de Voidstar Lab se le ocurrió un curioso proyecto tras darse cuenta de que mucha gente prefiere ver los vídeos y películas con subtítulos en vez de sin ellos, por cualquier razón (dominio del idioma, dificultades de audición, privacidad…) ¿Por qué no hacer eso en tiempo real mientras él mismo hablaba? El resultado es el «hombre con subtítulos», y funciona sorprendentemente bien. Además, es fácil de fabricar y muy didáctico.

El hackeo tiene varios componentes. Primero, una pantalla LED sencilla, que va conectada con otra caja que se lleva a la espalda, que es donde están la batería y el procesador. La caja y el marco para la pantalla se pueden imprimir en 3-D. Todo ello va sujeto a su jersey/sudadera con unos poderosos imanes, porque al tratarse de un prototipo prefirió no agujerearlo; parece que sujeta perfectamente. Además de eso, un micrófono de solapa recoge el sonido de su voz.

En cuanto a programación, el invento podría funcionar con software de reconocimiento de voz-a-texto directo, pero eso requería ponerse a programar más allá de lo que estaba dispuesto. Así que para quitarse de complicaciones optó por Deepgram; un servicio externo que a través de una API realiza la misma función, aunque naturalmente requiere una conexión a internet, vía wifi/móvil, y es de pago (más allá de un periodo de prueba).

Una vez montado todo, las pruebas demostraron que el sistema funciona, convirtiendo su voz en texto con una precisión razonable. Freedman cuenta que aprendió las siguientes lecciones:

  • Aunque los «subtítulos» funcionan en tiempo real y apenas tienen retardo (lag) el software requiere que no hables demasiado rápido y hagas interrupciones naturales. Si no se hace así se descubre parte del truqui de su funcionamiento: Deepgram aprovecha las pausas para «darle sentido» a las frases. Su algoritmo se comporta como una suerte de «texto predictivo» y si no dejas de hablar comienza a corregir palabras retroactivamente, dificultando la lectura.
  • Puesto a prueba en una tienda de electrónica con la gente que pasaba por allí, descubrió que la gente entiende el concepto a la primera con solo verle, gracias a que el texto sigue el ritmo de sus palabras (y no parece una grabación). Es útil por ejemplo si lleva la mascarilla puesta y no se le entiende del todo bien porque habla en voz baja. (Otra utilidad obvia sería para hablar con una persona con dificultades auditivas).
  • También descubrió que al hablar con alguien en voz baja cambia su vocabulario y cadencia de voz, y resulta que eso es más «compatible» con el software, por lo que la precisión acaba siendo sorprendentemente alta.
  • Otro detalle curioso es que el hecho de que la gente no tiene que establecer contacto visual y mirarte a los ojos, lo cual parece que ayuda a muchas personas a comportarse de forma más sociable y a entablar una conversación. ¡Así es el mundo moderno!
  • Es mejor si la pantalla no tiene demasiado brillo y reflejos, porque eso también complica la lectura.

Como invento me ha parecido bastante curioso. Desde luego hay formas parecidas de hacer lo mismo, incluyendo darle al micrófono de Google en cualquier teléfono móvil poniendo la letra muy en grande, pero como «montaje independiente» el resultado es tan simpático como original y resultón.

Relacionado:

Compartir en Flipboard Publicar / Tuitear Publicar