Esta demostración denominada simplemente Wavenet TTS es una especie de avance de la línea que está siguiendo Google con DeepMind para mejorar la tecnología de síntesis de text-a-voz (TTS).
Las voces actuales de Google, Siri (Apple) y Cortana (Microsoft) están bien pero claramente suenan un poco mecánicas, con entonaciones extremadamente raras y en el caso de Google, demasiado «alegre y dicharachera», casi de broma. Tal y como cuentan en Geek, una nueva tecnología que predice y modela directamente la forma de las ondas del sonido resulta mucho más «humano». Realizando miles de predicciones por segundo y usando la red neuronal de DeepMind –entrenada por grabaciones de humanos– es una idea bastante distinta de la «concatenación de sonidos» a la que estamos acostumbrados.
Según dicen, además de generar una voz más clara y natural también puede usarse para generar muchas voces distintas sin extraordinario esfuerzo o incluso, a cierto nivel, directamente música. Las demostraciones que hay hasta el momento no son muy numerosas, ni largas, pero hay que reconocer que suenan prometedoras.