Un par de vídeos de Google Research muestran lo que parece un buen avance a la hora de separar dos o más voces en una señal de audio. Es algo en lo que los humanos somos muy buenos y capaces –lo hacemos sin darnos cuenta– pero un gran problema para las máquinas y los sistemas de reconocimiento de voz. Al menos hasta ahora.
El problema se conoce tradicionalmente como el efecto de la fiesta/cóctel (cocktail party) o de la «sala ruidosa». Se define como la capacidad de focalizar la atención auditiva en un estímulo particular, ignorando el resto. Es tan curioso como que es lo que permite a alguien distinguir su propio nombre cuando lo oye mencionado en un entorno ruidoso y caótico aunque ni siquiera estuviera prestando atención. (Y saber más sobre «cómo funciona» eso le vendría muy bien a Siri, Alexa y compañía).
El trabajo completo de estos ingenieros de Google se titula A Speaker-Independent Audio-Visual Model for Speech Separation (aquí el trabajo en PDF). Tal y como explican la técnica consiste en un análisis del espectro de audio y de las imágenes de las personas que están hablando, ofreciendo como resultado una señal limpia con cada una de las voces.
El enfoque del trabajo ha sido eminentemente práctico: dicen que el sistema de aprendizaje ha sido entrenado con escenarios típicos entre los que se han incluido «debates y entrevistas acaloradas, barras de bar y niños gritando» (ahí es nada). Lo único que hace falta es elegir la cara de la persona que se quiere escuchar limpiamente y el resto lo hace la máquina. Imagina un bar o una videoconferencia múltiple. O lo bien que escucharía Siri o tu coche inteligente si pudiera concentrarse sólo en ti y no en el ruido de alrededor.
Según afirman el sistema produce resultados superiores a los de otros métodos y es completamente independiente de la persona, es decir: una vez pasada la «fase de entrenamiento» previa puede reconocer y separar cualquier voz sin necesidad de que sea muy distinta de otras que se están solapando.
Los vídeos muestran monologuistas y entrevistas de televisión con dos personas, gente en un bar y en una videoconferencia con ruidos de voces de fondo. Y va muy bien. Me gustaría eso sí verlo en los acalorados debates televisivos sobre política – más que nada porque sería gracioso escuchar las pistas de audio limpias de las barbaridades que sueltan los tertulianos de turno. Lo que nos vamos a reír cuando lo hagan.
(Vía Android Police.)
Relacionado:
- Un sistema de reconocimiento de voz diseñado para analizar y transcribir el audio de las misiones Apolo
- Troleando al reconocimiento de voz de Google con un anuncio por voz
- Un millón de clips de vídeo para enseñar a la inteligencia artificial de IBM a reconocer acciones y emociones humanas
- Reconocimiento automático de voz estilo escocés
- Avances en traducción
- La comprensión de los acentos de los idiomas de Google progresa
- Jibbigo: o cómo el traductor universal y el pez Babel están al caer