Avances en reconocimiento de voz: el problema de focalizarse en una voz concreta en un entorno ruidoso

Por @Alvy — 12 de abril de 2018

Un par de vídeos de Google Research muestran lo que parece un buen avance a la hora de separar dos o más voces en una señal de audio. Es algo en lo que los humanos somos muy buenos y capaces –lo hacemos sin darnos cuenta– pero un gran problema para las máquinas y los sistemas de reconocimiento de voz. Al menos hasta ahora.

El problema se conoce tradicionalmente como el efecto de la fiesta/cóctel (cocktail party) o de la «sala ruidosa». Se define como la capacidad de focalizar la atención auditiva en un estímulo particular, ignorando el resto. Es tan curioso como que es lo que permite a alguien distinguir su propio nombre cuando lo oye mencionado en un entorno ruidoso y caótico aunque ni siquiera estuviera prestando atención. (Y saber más sobre «cómo funciona» eso le vendría muy bien a Siri, Alexa y compañía).

El trabajo completo de estos ingenieros de Google se titula A Speaker-Independent Audio-Visual Model for Speech Separation (aquí el trabajo en PDF). Tal y como explican la técnica consiste en un análisis del espectro de audio y de las imágenes de las personas que están hablando, ofreciendo como resultado una señal limpia con cada una de las voces.

El enfoque del trabajo ha sido eminentemente práctico: dicen que el sistema de aprendizaje ha sido entrenado con escenarios típicos entre los que se han incluido «debates y entrevistas acaloradas, barras de bar y niños gritando» (ahí es nada). Lo único que hace falta es elegir la cara de la persona que se quiere escuchar limpiamente y el resto lo hace la máquina. Imagina un bar o una videoconferencia múltiple. O lo bien que escucharía Siri o tu coche inteligente si pudiera concentrarse sólo en ti y no en el ruido de alrededor.

Según afirman el sistema produce resultados superiores a los de otros métodos y es completamente independiente de la persona, es decir: una vez pasada la «fase de entrenamiento» previa puede reconocer y separar cualquier voz sin necesidad de que sea muy distinta de otras que se están solapando.

Los vídeos muestran monologuistas y entrevistas de televisión con dos personas, gente en un bar y en una videoconferencia con ruidos de voces de fondo. Y va muy bien. Me gustaría eso sí verlo en los acalorados debates televisivos sobre política – más que nada porque sería gracioso escuchar las pistas de audio limpias de las barbaridades que sueltan los tertulianos de turno. Lo que nos vamos a reír cuando lo hagan.

(Vía Android Police.)

Relacionado: