¿Qué es un Deep Fake?
Un Deep Fake es un vídeo en el que se muestran imágenes falsas, habitualmente del rostro de una persona, que parecen ser reales y que se han producido utilizado Inteligencia Artificial. En concreto, técnicas de Machine Learning denominadas Deep Learning, aprendizaje profundo, que utiliza algoritmos de redes neuronales.
La falsificación y alteración de las fotos no es nada nuevo, sin embargo, la Inteligencia Artificial permite no solo alterar imágenes, sino crearlas. Hasta hace unos pocos años, era tan sumamente costoso realizar un intercambio de cara en unos fragmentos de vídeo, que únicamente algunos estudios de cine podían afrontar los cientos de miles o millones de euros que costaba.
Ahora mismo, la tecnología ha avanzado muchísimo, siendo mucho más accesible para que cualquier persona pueda realizar un “Deep Fake”, con mayor o menor calidad.
Es sumamente relevante destacar dos aspectos, la verosimilitud y la finalidad. Los primeros “Deep Fakes” tenían unos resultados bastante mediocres y poco creíbles. Conforme se han ido produciendo avances en el Machine Learning, los resultados son asombrosos y cada vez más difíciles de detectar. Por otro lado, está la intención con la que se ha creado el vídeo. No es lo mismo utilizarlo con fines científicos o crear contenidos autorizados, que para generar información falsa. La ley no regula el uso de la tecnología, pero sí la finalidad con la que se utiliza.
¿Cómo se crea un Deep Fake?
La Inteligencia Artificial recrea una imagen de una cara o de cualquier otro objeto aprendiendo de cientos, de miles de imágenes de esa cara u objeto. Se utilizan lo que se denomina redes neuronales generativas antagónicas, GANs por sus siglas en ingles, con algoritmos que son capaces de aprender de los patrones que encuentra en las imágenes, para luego reproducirlos creando nuevas de ese objeto, rostro o imagen.
En 2017 investigadores de la Universidad de Washington utilizaron más de 14 horas de grabación del presidente Barack Obama para reproducir su imagen y voz, y así simular cualquier discurso. Crearon un modelo de la forma y movimientos de la boca para vincularlo con las grabaciones de la voz. Con esta técnica, sobre vídeos reales podían poner en boca de Barack Obama cualquier mensaje que un actor reprodujera.
En el 2018 un grupo de profesionales realizó un Deep Fake, no muy bueno, pero sí divertido, del senador de Texas Ted Cruz cantando e imitando a Tina Turner. En este caso, el modelo de algoritmos codificó como gesticula, se mueve y se ve la cara del senador y la de un actor. A continuación, decodifica las imágenes del rostro de Ted Cruz y las reconstruye sobre las del rostro del actor.
En resumen, los Deep Fakes funcionan a través del uso de modelos de redes neuronales generativas, Deep Learning. Básicamente, los algoritmos aprenden a crear imágenes de personas reales o ficticias tras procesar una base de datos de imágenes de ejemplo. A partir de ser entrenados con imágenes de una persona concreta, pueden generar vídeos muy realistas de ésta. De un modo similar se recrea la voz, con el potencial que esto genera, tanto para un uso positivo, como para un uso mal intencionado creando vídeos falsos totalmente creíbles, de personas haciendo o diciendo algo inapropiado.
La verosimilitud de estas reconstrucciones se complica si las imágenes sobre los que ha aprendido el modelo difieren mucho con las que se van a vincular. En ocasiones se producen resultados con orejas, narices, o rasgos jocosos.
Los Deep Fakes mas populares son de celebridades ya que hay una inmensa cantidad de fotos y vídeos disponibles on-line, pero igualmente se puede hacer con cualquier persona siempre y cuando se pueda obtener suficientes imágenes, por ejemplo, de las redes sociales.
Existen diversas aplicaciones y soluciones para crear Deep Fakes. Se requiere de equipos informáticos con procesadores gráficos muy potentes, ya que el procesado de las imágenes puede llevar incluso días para unos pocos minutos de vídeo. Sin embargo, esto se puede acelerar con el uso de máquinas virtuales disponibles en múltiples plataformas en la nube.
¿Cuáles fueron los primeros Deep Fakes?
En 2018 se empezó a escuchar con frecuencia su uso en vídeos de contenido sexual, aunque la innovación comenzó en 2014.
En 2017 un usuario anónimo de Reddit utilizo el Deep Learning, para intercambiar las caras de actrices famosas con las de las actrices originales, en escenas de películas para adultos.
En 2014 Ian Goodfellow, un estudiante de doctorado de la Universidad de Montreal, abordo de una forma pionera la generación de imágenes con el enfoque de redes neuronales generativas adversarias, GAN. Goodfellow entrenó dos redes neuronales con una misma base de datos de imágenes para luego crear nuevas. Enfrentó las dos redes entre sí para que identificaran qué imágenes eran reales y cuáles eran ficticias, como un juego digital del gato y ratón.
El primer modelo de red neuronal generaba imágenes nuevas a partir de la base de datos que había aprendido, creando por ejemplo un gato con dos colas. El segundo modelo detectaba las imágenes ficticias, y así el primero aprendía de sus propios errores y generaba gatos con una única cola. Poco a poco se iban creando imágenes cada vez más realistas y difíciles de detectar.
Estas técnicas de Inteligencia Artificial se han utilizado por equipos de investigación para crear caras ficticias a partir de celebridades, o para crear pinturas supuestamente realizadas por Van Goh.
En sus orígenes, estas redes neuronales cometían una gran cantidad de fallos, como bicicletas con dos manillares, o caras con cejas fuera de su sitio. Ahora mismo son capaces de crear con una alta verosimilitud una imagen completa a partir de una parte de esta, por ejemplo, el cuerpo de un gato a partir de su cabeza.
¿Usos mal intencionados de los Deep Fakes?
Esta tecnología de Inteligencia Artificial, lamentablemente se puede utilizar maliciosamente para engañar a gobiernos, poblaciones, causar conflictos internacionales, dañar la imagen de una persona, o sacar un provecho ilegítimo.
Todo empezó en las películas para adultos
En el 2017 comenzaron los Deep Fakes con celebridades. Especialmente populares fueron las falsificaciones de Emma Watson y Natalie Portman. También se han hecho vídeo clips de la ex primera dama Michelle Obama; de la hija del expresidente Donald Trump, Ivanka Trump; o de la duquesa de Cambridge, Kate Middleton.
La política desgraciadamente ha tratado de sacar provecho
A finales de 2018 el presidente de Gabón, Ali Bongo, llevaba meses sin aparecer en público, y se empezaba a cuestionar su estado de salud. Para acallar los rumores, se publicó un vídeo en el que pronunciaba su discurso habitual de Año Nuevo, con la peculiaridad que no parpadeo en los más de 3 minutos que duraba el discurso. Para la verosimilitud, los detalles son importantes.
La pasada campaña electoral de Estados Unidos, los Deep Fakes plantearon un riesgo para la política en términos de medios falsos que parecen ser reales.
La presidenta de la cámara Nancy Pelosi, ha sido objeto de múltiples ataques. Se alteró la grabación de una entrevista para que pareciera que estaba borracha. Se publicaron estas imágenes por las redes sociales llegando a compartirse mas de 45.000 veces y tener más de 23.000 comentarios aludiendo a su aparente embriaguez.
En septiembre 2020, se presentaron versiones falsas del presidente ruso Vladimir Putin y del líder nordcoreano, Kim Jong, lanzando el mismo mensaje, que no necesitaba interferir en las elecciones ya que sería el propio Estados Unidos quien arruinaría su democracia por sí mismo.
No todo es manipulación ni pasa en Estados Unidos. En Febrero de 2020, unos días antes de las elecciones estatales en Delhi, se volvió viral en la India un vídeo de Manoj Tiwaroi, presidente del partido Bharatiya. En el vídeo original habla en Inglés criticando a su oponente político. Mientras que, en el vídeo viral, se ha utilizado Inteligencia Artificial para que mueva de forma convincente su boca mientras habla en el dialecto hindi utilizado por la mayoría de los votantes objetivo.
Suplantar la identidad para estafar
Fue muy sonada la suplantación sumamente creíble, mediante Deep Fake de audio, de la voz del CEO de una compañía de energía del Reino Unido, pidiendo a un director ejecutivo que realizara una transferencia de 200.000€ a un supuesto proveedor húngaro. Cuando se dieron cuenta de la estafa, el dinero ya estaba disperso por todo el mundo habiendo sido movido a través de cuentas de Hungría y México.
¿Usos positivos de los Deep Fakes?
La tecnología es inofensiva en sí misma, un buen uso puede tener un gran impacto positivo en la vida de las personas, negocios y en la sociedad. El uso legitimo de la imagen y voz de terceros, abre grandes oportunidades de negocio en el mundo de la televisión, cine, marketing, etc.
Inteligencia Artificial en documentales y periodismo
Las palabras de JFK en julio de 1963 dieron paso a la resolución para poner fin a la Guerra Fría. Su asesinato el 22 de noviembre del mismo año cambió el ritmo de la historia provocando convulsión en por todo el mundo, y su discurso en el Dallas Trade Mart nuca fue escuchado. En el 2018, ese discurso se escuchó con la voz recreada del propio JFK, gracias a una iniciativa de la empresa Irlandesa Rothco. Mediante Inteligencia Artificial y durante 8 semanas, se analizaron grabaciones de 831 discursos y se construyó la voz dividiéndoen 116.777 pequeñas unidades fonéticas. El mayor reto fue capturar el estilo de habla y la diferencia de calidad de las grabaciones procedentes de diferentes fechas y equipos de grabación. Este fue el primer discurso hecho completamente utilizando Inteligencia Artificial.
Un enfoque similar abordó dos investigadores del MIT, Francesca Panetta y Halsey Burgund, para el supuesto en el que el aterrizaje lunar del Apolo en 1969 hubiera sido un desastre. El presidente Nixon tenia preparados dos discursos, en caso de que se completará con éxito, o no, la aventura a la luna. Los investigadores del MIT siguieron los mismos pasos que en el caso de JFK, y utilizaron al actor Lewis D. Wheeler para que hiciera de base y superponer la imagen y voz del presidente. Se necesitaron días de laboratorio para entrenar los algoritmos de Deep Learning para vincular la voz y rostro del actor con la de Nixon.
En junio 2020, Welcome to Chechyna, una película de investigación sobre la persecución de personas del colectivo LGBT en la república rusa, se convirtió en el primer documental en usar Deep Fakes para proteger la identidad de las personas que participaron, y evitar así su persecución. Se pidió a activistas LGBT voluntarios de todo el mundo a que prestaran sus rostros para ser suplantados por 23 de los protagonistas de la película.
Mas recientemente la agencia Reuters utilizó la Inteligencia Artificial para recrear informativos de periodistas reales, y casi en tiempo real, en función de los acontecimientos y sin necesidad de requerir la grabación en persona.
Deep Fakes en la televisión y cine
El pasado año, se realizó en Estados Unidos un anuncio para promover la vuelta en activo a los deportes profesionales. El anuncio estaba protagonizado por el jugador de la NBA Damian Lillard, la jugadora Skyler Diggins de la WNBA y el jugador de hockey Sidney Crosby. Ninguno de ellos fue a los estudios de grabación, fueron unos actores los que realizaron el anuncio vinculado los rostros y voz de los deportistas.
El jugador de futbol David Beckham protagonizo una campaña contra la malaria. Grabo un único vídeo clip sobre el que se aplico Inteligencia Artificial para que reprodujera el mismo mensaje en nueve idiomas. Se manipuló sus movimientos faciales, creando así la ilusión visual de que realmente estaba hablando en cada idioma, e incluso una voz femenina.
Este año ha hecho furor el anuncio de Cruzcampo con el Deep Fake de Lola Flores. Se han utilizado más de 5000 imágenes de “La Faraona” para vincular su rostro y voz con la de una artista que la representa.
La cultura y educación también explotan el Deep Learning
El museo de Salvador Dalí en St. Petersburg, Estados Unidos, ha recreado la imagen y voz de Dalí. Interactúa con los visitantes e incluso se hace un selfi con ellos. Para su creación se han requerido mas de 6.000 fotogramas y 1.000 horas de aprendizaje automático. Sus expresiones faciales se vincularon con las de un actor con proporciones corporales similares a las de Dalí, y se sincronizó la voz imitando su acento único, una mezcla de francés, español e inglés.
La medicina hace mucho tiempo que utiliza estas técnicas de Inteligencia Artificial
Se utilizan las redes neuronales generativas adversarias (GANs) para crear gemelos digitales, y crear nuevas imágenes de tumores cerebrales cambiando la ubicación y tamaño de éstos, o imágenes de lesiones cutáneas o lesiones hepáticas. Con estas nuevas imágenes se pueden entrenar los modelos de Machine Learning cuando no se dispone de una base de imágenes reales tan amplia como se quisiera.
Estas mismas técnicas de Deep Learning se utilizan para la detección de cáncer. Los algoritmos aprenden de una amplia base de datos de imágenes de radiología que previamente se han etiquetado con presencia o ausencia de tumores. A partir de aquí, la solución de Inteligencia Artificial es capaz de identificar evidencias de tumores en una nueva imagen.
El futuro de los Deep Fakes
Sin duda alguna la tecnología de Inteligencia Artificial detrás de los Deep Fakes, el Machine Learning, tiene un presente que ya es muy prometedor.
Conforme se vaya avanzando en las técnicas de Deep Learning, redes neuronales, el abanico de posibilidades irá creciendo rápidamente, en diferentes ámbitos, como la sanidad, educación o en los negocios.
Sin embargo, a medida que avanza y aumenta el acceso a esta tecnología, también aumenta el riesgo del uso de Deep Fakes con fines maliciosos.
Se puede utilizar la propia Inteligencia Artificial para detectar Deep Fakes. Compañías como Google han lanzado una base de datos con miles de vídeos manipulados para desarrollar herramientas que detecten las falsificaciones.
Este juego del gato y el ratón por crear falsificaciones y detectarlas, en el fondo está acelerando la innovación en este campo, que ha de estar al servicio de un uso positivo.
Andrés Visús, Responsable de Desarrollo de Negocio en PredictLand