El código se puede bajar y probar aquí: Real Time Voice Cloning y es el sistema descrito en este trabajo de varios investigadores de Google: Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis [PDF] con un vocoder (codificador de voz) que funciona en tiempo real. A partir de una muestra de voz cualquiera genera en cuestión de segundos una transcripción de texto-a-voz bastante realista utilizando esa misma voz de muestra.
Tal y como decía Mikeal Roger es una mezcla de «increíble y terrorífico» a la vez, asombroso pero también un poco tenebroso porque estas cosas no sabes para qué maldad acabarán usándose, a pesar de que se haya concebido como una tecnología totalmente neutra.
El vocoder que utiliza este sistema es WaveNet, una red neuronal profunda para generar audio a partir de muestras, creado por la gente de DeepMind y de la que ya hablamos por aquí hace algunos años.
Relacionado:
- La futura voz de Google es inquietantemente humana
- Curiosidades de los sintetizadores de voz y la accesibilidad «texto a voz»
- Texto a Voz
- Reconocimiento de «voz silenciosa»
- Una tecnología de Microsoft que combina «hologramas» ultrarrealistas con traducciones, texto-a-voz y captura de movimientos
- La cálida y humana voz de Tacotron 2, un refinado software texto-a-voz