Este Obama sintetizado se presentó en el festival SigGraph 2017; es una creación de investigadores de la Universidad de Washington. Se trata básicamente de una recreación: un doble digital que dice cosas que nunca se dijeron, con el movimientos de los labios perfectamente sincronizado.
Es difícil distinguir si estos vídeos son auténticos o falsos, del mismo modo que cada vez somos más engañados por los rostros artificiales de las películas. Falsear el audio es relativamente fácil si se tiene un archivo suficientemente grande y de calidad (y para el caso de los políticos o personajes públicos parece algo viable). Pero aun así el realismo conseguido tiene mucho método.
Para crear el vídeo se utiliza una imagen real a la que se superpone el audio deseado (falseado) que se ha construido a partir de un texto. Dado que el movimiento de los labios no coincidiría con el original se elimina la boca y se «superpone» una especie de máscara en esa zona con un nuevo movimientos de los labios creado en 3D – algo parecido a lo que se hace cuando se inserta un rostro de un actor famoso sobre el cuerpo de un doble en las escenas de acción.
¿Cómo se crea la máscara de la boca y sus movimientos? Un sistema de inteligencia artificial entrenado con una red neuronal mapea el texto que se desea que pronuncie en las posiciones correspondientes, formando el movimiento que luego se superpone. Para afinarlo además se utiliza una técnica de resincronización para evitar que se note el montaje cuando comienza o terminan las palabras.
El resultado es bastante bueno y los vídeos dan el pego, aunque desde luego no soportarían un análisis forense – ni siquiera los de audio lo hacen a día de hoy. Pero esto es solo el comienzo.
(Vía Boing Boing.)