Tecnología

Investigadores de Samsung crean videos de Einstein y Dalí con IA

El equipo de investigadores de Samsung AI Center usó fotografías para crear animaciones en las que parece que los personajes hablan y se mueven con naturalidad.

mar 28 mayo 2019 04:01 PM

**Dalí.** Un grupo de investigadores desarrolló un algoritmo que logra animal fotografías. (Samsung)

CNN

@expansionMx

Rachel Metz

SAN FRANCISCO - Los investigadores han ideado un método para crear videos realistas, pero falsos, de cualquier individuo a través de un sistema de inteligencia artificial tan solo utilizando una foto de ellos. Es una habilidad potencialmente preocupante frente a las elecciones presidenciales de Estados Unidos en 2020, pues se espera que se difundan videos falsos de candidatos.

Los investigadores del Samsung AI Center en el Instituto de Ciencia y Tecnología Skolkovo en Moscú explicaron su logro en un artículo publicado esta semana en arXiv, un servicio de preimpresión académico en línea.

Ellos afirman que fueron capaces de animar una o varias fotos de personas primero entrenando al sistema de IA con una base de datos de videos que incluyó a varias celebridades para que pudiera aprender sobre los puntos clave del rostro. Después de ello, el sistema de IA fue capaz de combinar esa familiaridad con una o más imágenes de una persona para logar un video convincente de una “cabeza parlante”.

Un video que publicaron los investigadores en YouTube esta semana mostró múltiples ejemplos de qué tan convincente puede ser, así como cuánto trabajo falta por hacer. Se generaron versiones animadas sorprendentes del físico Albert Einstein, la actriz Marilyn Monroe y el pintor surrealista Salvador Dalí a partir de fotografías icónicas de ellos.

Lee: La IA ya permite crear tu propio mundo y sí, es más realista

Pero a cada una le faltaba algo: el voluminoso peinado de Einstein no se movía naturalmente con su cabeza, el bigote delgado de Dali parecía estar recortado, y el famoso lunar de Monroe no estaba en su mejilla.

El trabajo es bastante similar a los llamados deepfakes, una combinación de los términos deep learning y fake (falso), que son videos y audios falsos convincentes generados a partir del uso de tecnología de inteligencia artificial de vanguardia y relativamente accesible. La investigación utiliza la misma técnica de IA detrás de los deepfakes, que es un método de aprendizaje autónomo llamado red generativa antagónica, o GANs por sus siglas en inglés. Pero es distinto pues los deepfakes son generados mediante el uso de video de una persona objetivo junto con videos de alguien más que actúa del modo en que el objetivo actuará en el video, tal como en este ejemplo en el que el actor y comediante Jordan Peele pone palabras en la boca del expresidente Barack Obama.

La difusión de videos adulterados está incrementando las preocupaciones de todos, desde líderes políticos hasta la comunidad de inteligencia de EU, que temen que puedan ser utilizados para engañar a los electores. Estos videos no requieren ser alterados con la última tecnología para ser efectivos: un video manipulado de la presidenta de la Cámara Nancy Pelosi que se hizo viral esta semana simplemente había sido ralentizado para que pareciera que estaba arrastrando sus palabras después de su reunión con el presidente Donald Trump.

El trabajo de los investigadores sigue en sus etapas iniciales: el sistema de IA sólo fue entrenado para crear la cabeza de una persona, su cuello y parte de los hombros. Y si bien un clip generado con una única foto de referencia de una mujer se veía plausible (si bien de baja resolución), otros videos que se crearon con ocho y 32 imágenes de ella eran cada vez más realistas.

Recomendamos: La IA sabrá qué película verás en tu próxima visita al cine

Siwei Lyu,que estudia los deepfakes y es director del laboratorio de visión por computador y aprendizaje autónomo de la Universidad de Albany, SUNY, dijo a CNN Business que la investigación podría facilitar la creación de deepfakes con menos información de la que requieren actualmente. Estos días, eso tiende a ser más de 30 segundos de video de la persona que quieres manipular y otra persona que también debe ser grabada haciendo los movimientos deseados.

"La desventaja es que, sin información suficiente, la calidad de la síntesis es limitada”, dijo.

Lo que significa que, él también se dio cuenta del lunar faltante de Monroe.