Así es la edición de un vídeo para que cambie lo que dice una persona: tan fácil como cortar-y-pegar

Por @Alvy — 10 de junio de 2019

En este vídeo de Ohad Frid publicado para el SigGraph 2019 que se celebra este verano se explica cómo editar lo que dice un busto parlante. Básicamente se utiliza el texto de la transcripción de lo que está diciendo la persona para localizar los puntos de corte. En esos puntos se puede modificar lo que dice, simplemente cambiando el texto.

El fluir del vídeo, el audio y el movimiento de los labios se mantiene de forma completamente transparente aplicando diversas técnica que incluyen el análisis de los fonemas, visemas, la pose 3D del rostro y otras técnicas de optimización.

El resultado es que la escena regenerada se regraba luego como un vídeo fotorrealista, de modo que apenas se nota que un texto ha cambiado por otro, haciendo «prácticamente invisible» el hecho de que se hayan eliminado o añadido palabras, o cambiado unas por otras (un dato que esté mal, como «91.4» por «82.2», por ejemplo) sin mayores problemas. En el vídeo hay varios ejemplos y una detallada explicación de las técnicas.

Es interesante que parte del trabajo incluya las consideraciones éticas de este tipo de técnicas. Que igual que vienen bien para corregir errores, mejorar los doblajes o adaptar un vídeo a diferentes grupos de edad (adultos o niños, por ejemplo) también puede tener un lado oscuro.

Entre las técnicas propuestas para «distinguir realidad de manipulación malintencionada» están sugerencias como indicar de forma clara y meridiana que las imágenes están modificadas (quizá como en la restauración de obras artísticas antiguas), incluir marcas de agua invisibles o la obligación legal de obtener permiso antes de hacer una modificación.

Relacionado: