Una de las cosas que más pueden preocupar a los que se oponen al desarrollo de la inteligencia artificial —que los hay y muchos— es que estas nuevas tecnologías pueden ser utilizadas para distorsionar nuestra realidad, para dominarnos o influir en algún sentido. Precisamente vimos en el pasado cómo la inteligencia artificial es capaz de sintetizar la voz de cualquier persona y hacerlo decir frases que jamás dijo. Imagina que esto también se pudiera hacer con vídeos, poder tomar un audio falso y un vídeo de alguien y hacerlo decir cosas que nunca dijo; precisamente esto es ahora posible.
Investigadores de la Universidad de Washington han desarrollado una nueva herramienta que toma archivos de audio, los convierte en movimientos de la boca muy realistas e implanta esos movimientos en un vídeo existente. Lo que obtenemos es un corto de alguien diciendo palabras que no dijo en ese momento, e incluso que nunca haya dicho.
Como ejemplo claro, han tomado el audio de dos entrevistas (a la izquierda en el siguiente vídeo) del ex-presidente de EE.UU Barack Obama, utilizaron esta herramienta que utiliza inteligencia artificial y una serie de algoritmos que determinan los movimientos de la boca, y luego implantaron esos movimientos en tomas que corresponden al discurso del ex-mandatario (a la derecha). Notarás que el área de la boca del Barack Obama se ve un poco difuminada, pero en general es totalmente creíble:
Ira Kemelmacher-Shlizerman, profesora en la Escuela Paul W. Allen de Computación e Ingeniería de la UW, explicó: “La conversión realista de audio a video tiene varias aplicaciones prácticas que van desde mejorar la calidad de una videoconferencia hasta la posibilidad de mantener una conversación con una figura histórica”.
El sistema desarrollado por la Universidad de Washington permite reconocer los patrones de movimiento de la boca y vincularlos a sonidos, permitiendo así invertir el proceso posteriormente. Todo esto se realiza utilizando Inteligencia Artificial que aprende de los patrones analizando vídeos de una persona.
Los investigadores aseguran que para que la inteligencia artificial logre mapear los movimientos naturales de la boca de cualquier individuo, se necesitan al menos 17 horas de vídeo. Por supuesto, esta intentando acortarse estos tiempos.
El objetivo, según explican los investigadores, es que en el futuro pueda utilizarse este tipo de tecnología en aplicaciones de videoconferencias como Skype. Los usuarios podrían por ejemplo, utilizar únicamente su voz en la llamada y una representación de sí mismos, que será vista por la otra persona, simularía los movimientos del habla. Este simple hecho podría ahorrar algunos megabytes en transferencia de datos móviles.
Las preocupaciones ante el desarrollo de este tipo de tecnología resultan muy evidentes. Sobre todo en estos tiempos donde las noticias falsas se han convertido en un negocio. Hacer que un político o una celebridad diga palabras que nunca dijo, puede ser el oro para este sector.