La cálida y humana voz de Tacotron 2, un refinado software para la conversión de texto-a-voz

Por @Alvy — 2 de enero de 2018

Haz la prueba y compara la calidad de la síntesis de voz de este sistema llamado Tacotron 2 con el de Siri, Cortana o la entrañable «borracha de Google»: Tacotron 2: audio samples from natural TTS synthesis. La diferencia es tan grande que es difícil distinguir la voz real de los ejemplos sintetizados. (Prueba con los cuatro clips que hay al final, son dignos de Test de Turing, como decía @alexjc.)

Esta creación artificial utiliza una refinada arquitectura de redes neuronales para lograr una voz más humana en la conversión texto-a-voz (TTS). forma parte de un trabajo publicado en ArXiv bajo el enrevesado título de Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.

Según explican Tacotron aprende a pronunciar según la semántica de las frases, tiene en cuenta la puntuación y pausas, es capaz de pasar por alto pequeñas faltas de ortografía y puede aprender la entonación y acentuación a partir de las muestras con que se entrena. ¡Ah! Y también puede pronunciar términos complicados como «otorrinolaringología» sin pestañear.

Relacionado: