Clonar la voz de alguien con una muestra de 5 segundos. No sólo es fácil sino también «increíble y terrorífico»

Por @Alvy — 26 de noviembre de 2019

El código se puede bajar y probar aquí: Real Time Voice Cloning y es el sistema descrito en este trabajo de varios investigadores de Google: Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis [PDF] con un vocoder (codificador de voz) que funciona en tiempo real. A partir de una muestra de voz cualquiera genera en cuestión de segundos una transcripción de texto-a-voz bastante realista utilizando esa misma voz de muestra.

Tal y como decía Mikeal Roger es una mezcla de «increíble y terrorífico» a la vez, asombroso pero también un poco tenebroso porque estas cosas no sabes para qué maldad acabarán usándose, a pesar de que se haya concebido como una tecnología totalmente neutra.

El vocoder que utiliza este sistema es WaveNet, una red neuronal profunda para generar audio a partir de muestras, creado por la gente de DeepMind y de la que ya hablamos por aquí hace algunos años.

Relacionado: