Explicación de los 3 tipos más comunes de Deepfakes faciales

GenAI, deepfakes e inyecciones digitales. Escuchamos estos términos en todas partes, pero ¿qué significan exactamente? Hoy, estamos tomando una inmersión profunda en cómo funciona la tecnología facial deepfake.

Antes de los últimos 2-3 años, fraude de identidad se basó principalmente en técnicas de suplantación física, como fotos impresas, máscaras de silicona y videos que se muestran en las pantallas. Avancemos rápidamente hasta 2025, y el panorama de amenazas ha evolucionado dramáticamente. Desde la edad de sofisticados modelos generativos de IA (como StyleGan [1] o Stable Diffusion [2]), cada vez se cometen más ataques a través de medios digitales.

Más comúnmente, GenAI se puede dividir en forma textual, de audio y visual. Cada una de estas categorías se puede dividir en generación genérica y específica de dominio. Cuando se trata de verificación de identidad y autenticación biométrica, el rostro humano es un identificador clave. Como resultado de ello, los estafadores con frecuencia explotan técnicas de generación facial específicas del dominio para tratar de eludir dichos sistemas. Como veremos más adelante, incluso este estrecho dominio es muy rico y lleno de complejidades. Para un estudio exhaustivo sobre generación genérica, consulte [3], por ejemplo.

En términos generales, la generación facial se puede dividir en imágenes y videos. Históricamente, la generación de imágenes siempre ha arrojado resultados mejores o más realistas en comparación con los videos, dado que generar una sola imagen es más sencillo que generar cientos o miles de fotogramas que sigan las leyes de la física y los patrones naturales de comportamiento humano. El primer video generado por IA “Will Smith Eating Spaghetti”, que se hizo viral en Reddit en 2023, demostró esto [4].

La tecnología Deepfake cae en un amplio espectro, abarcando intercambios de caras sintéticas a caras. Algunos deepfakes se generan en tiempo real. Otros son cuidadosamente pregrabados e inyectados en tuberías de verificación. Independientemente del método, los deepfakes utilizados en el fraude de identidad tienen un objetivo: para eludir los sistemas de seguridad con una identidad falsa o robada. A continuación te explicamos los tres tipos más comunes de tecnología deepfake facial utilizada para cometer fraude de identidad.

Caras sintéticas, intercambios faciales y animaciones faciales

Caras Sintéticas

Esto es probablemente el tipo más común de tecnología deepfake facial utilizada en la actualidad.

Una cara sintética es una imagen o video generado por un modelo generativo sin necesidad de una identidad objetivo. En otras palabras, es un rostro que no necesariamente existe, sino que luce realista, dado que se basa en los millones de imágenes o videos de rostros en los que se entrenó el modelo generativo.

Existen dos tipos dominantes de modelos para generar rostros sintéticos: Redes Conversariales Generativas (GANs) y Modelos de Difusión. El ejemplo más destacado entre los modelos GAN es la serie StyleGan 1, 2, 3. No obstante, los modelos de difusión están recibiendo más atención recientemente debido a su capacidad para hacer imágenes y videos aún más realistas.

Hace diez años, los modelos GAN crearon caras simplistas, semi-realistas con muchos artefactos. Hace cinco años, los rostros se volvieron fotorrealistas pero sospechosamente perfectos: iluminación ideal, piel lisa, sin arrugas ni granos. En la actualidad, los modelos GenAI (mayoritariamente difusión) pueden generar rostros que capten las asperezas e imperfecciones de la realidad.

Además de trabajos de investigación y repositorios de github, hay múltiples herramientas en línea que proporcionan funciones de generación de caras sintéticas de forma gratuita. Por supuesto, una mayor calidad generalmente viene a un precio más alto, pero sin embargo es extremadamente barato.

La imagen de abajo a la izquierda es generada por un modelo generativo más simple de una generación anterior. Es caricaturesca y simplificada. La imagen de la mujer a su lado es mucho más realista, con arrugas, una expresión natural, e incluso un fondo caótico que refleja la vida real. Sin embargo, es generado por IA (Flux AI [5]).

La generación de video sintético tardó un poco más en ponerse al día con el realismo y la coherencia de la generación de imágenes fijas. El benchmark informal “Will Smith Eating Spaghetti” [6] es un claro ejemplo de estas dinámicas. En marzo de 2023, el video era como un sueño surrealista, mientras que el video generado por Veo 3 [7] en abril de 2025 parece realista y no tiene artefactos visibles.

En el contexto de la vida facial y la verificación de la identidad, nos enfrentamos a caras sintéticas cuando los estafadores intentan crear identidades falsas. Al tener una persona completamente nueva generada por IA, se aseguran de que el reconocimiento facial no coincida con un usuario existente.

Dada la facilidad de generar nuevas imágenes o videos, los estafadores pueden generar miles de nuevas identidades en una sola ejecución y realizar un ataque a gran escala en una aplicación.

💡
Todavía es común escuchar que las personas pueden detectar deepfakes buscando artefactos. Si bien esto era cierto hace varios años, y una mano con el número incorrecto de dedos o un reloj de pared en el fondo mostrando los dígitos equivocados podría ayudar a identificar un deepfake, hoy en día no es seguro confiar solo en nuestros ojos. Requerimos herramientas especializadas que nos ayuden con esta tarea.

Intercambios de Caras

Otra forma común de ataque deepfake es el intercambio de caras. A diferencia de las caras sintéticas, Los métodos de intercambio facial para imágenes y videos evolucionaron en paralelo. Esto se debe en parte a que, cuando un video objetivo está disponible, es más factible generar un resultado convincente al superponer una nueva identidad en el metraje existente.

A intercambio de caras es una imagen o video que coloca la cara de la identidad de origen en una imagen o video con otra persona. En otras palabras, las técnicas de intercambio facial reemplazan una cara de un medio por una cara de otro. La imagen o video de destino proporciona el contenido y la acción, mientras que la imagen de origen proporciona la identidad.

Los primeros métodos de intercambio facial no utilizaban ninguna IA generativa. En su lugar, un algoritmo detecta 68 puntos de referencia faciales [8] tanto en las caras de origen como de destino, los alinea y superpone la cara de origen sobre la imagen de destino.

Por supuesto, este método produciría artefactos, especialmente en casos de diferente tono de piel o vello facial, sin embargo, estaba disponible incluso hace 10-20 años. Con el tiempo, estos enfoques se aumentaron con una mejora neuronal adicional, y finalmente, ahora también se crean intercambios faciales con modelos generativos, al igual que las caras sintéticas.

Imaginemos que queremos usar la identidad de la mujer sintética de arriba para generar un intercambio facial. Usando el herramienta disponible gratuitamente Vidnoz [9], proporcionamos la imagen objetivo (imagen izquierda abajo), la cara de origen (la imagen de la mujer arriba), y el resultado es un intercambio facial realista (imagen derecha abajo), en el que podemos identificar claramente a la mujer.

Hay cientos de herramientas en línea y repositorios de código abierto disponibles con intercambios faciales de imagen o video, que incluyen una variedad de características como resolución, intercambio de múltiples caras, etc.

En Incode, a menudo observamos ataques de intercambio de rostros en producción. Uno de los indicadores más claros de un intercambio facial es la repetición del mismo fondo, persona, iluminación y otros parámetros visuales a través de múltiples videos o imágenes, en los que el único elemento que cambia es el rostro y su identidad. Por lo general, esta técnica se combina con el fraude de identificación, como el uso de una tarjeta de identificación robada o falsa.

Animación de la cara

Este tipo de deepfakes está siendo utilizado cada vez más por los estafadores.

Animación facial, o recreación facial, es un video generado a partir de una imagen fuente mediante la adición de movimiento o efectos de video. En otras palabras, hace que la persona en la selfie hable, sonría, se mueva y parpadee, todo ello respetando la identidad y las condiciones físicas de la foto original.

Este ataque es diferente de los dos anteriores porque no utiliza identidades falsas, ni intercambia identidades. Trae todavía—a veces generado por IA—imágenes a la vida.

Hay varias formas principales de generar una animación facial, y difieren según lo que impulsa la animación

otro video de (otra) persona—el más común, el más fácil de generar. Un ejemplo de animar a Mona Lisa con este enfoque a partir de 2019 [10]

Haga clic aquí para aceptar las cookies de marketing y cargar el video.

archivo de audio de alguien hablando—en base a esto, se generará un video de sincronización de labios
texto—similar al método anterior; primero genera el archivo de audio con texto a voz y luego procede como se ha indicado anteriormente
pronta—este es el método de animación más nuevo y avanzado; hace un video solo basado en un solo indicador.

La tecnología detrás de estos métodos de animación es similar a la que discutimos anteriormente, generalmente utilizando modelos de difusión o GANs. Sin embargo, otro enfoque común implica algoritmos de deformación geométrica basados en puntos clave combinados con arquitecturas CNN o Transformer personalizadas que generan valores de píxel. A pesar del enfoque técnico específico, los modelos de última generación de hoy en día pueden crear animaciones notablemente realistas.

A continuación se muestra la mujer de la imagen sintética de arriba que animamos con la herramienta gratuita Vidnoz. El pronta que usamos fue “Una mujer que se da la baja y sonriendo felizmente”. Como podemos ver, la herramienta decidió saltarse la primera parte del prompt. Además, cuanto más se alarga el video más difícil es para la herramienta preservar la identidad y no caer en generar una cara demasiado simplificada. Realismo, consistencia, presencia de artefactos: todo depende directamente de la herramienta y, en general, está mejorando muy rápidamente.

En Incode, hemos detectado que este tipo de ataques están ocurriendo cada vez con más frecuencia. Los estafadores toman la foto de otra persona y la convierten en un video para que parezca un proceso legítimo de toma de selfies. Quieren asegurarse de que la persona esté parpadeando, moviéndose ligeramente, cambiando expresiones, etc, para que parezca natural.

Otros deepfakes

Por supuesto, todos estos métodos deepfake se pueden combinar y usar juntos. Nada impide que los estafadores hagan esto. Por ejemplo, podrían llevar a cabo un intercambio facial y luego animar la imagen, o tal vez crear un video sintético, y luego intercambiar la cara con la identidad de origen. Todo depende de cuál sea su objetivo.

La lista de deepfakes que hemos descrito anteriormente está lejos de ser exhaustiva. También hay deepfakes para mejorar la imagen, para cambiar la edad de alguien y para combinar video con generación de audio. También existen los llamados shallowfakes, que incluyen manipulaciones más fáciles de imagen/video desde una perspectiva humana: edición manual, fondos virtuales estáticos, marcas de agua, etc.

Sobre el desempeño humano

Como discutimos anteriormente, los deepfakes se están volviendo cada vez más realistas, consistentes y físicamente plausibles. Hace 10 años, cualquiera podía detectar una imagen deepfake. Hace cinco años, cualquiera podía detectar un video deepfake. Hace dos años, sólo las etiquetadoras profesionalmente capacitadas podían identificar hasta cierto punto deepfakes. Hoy en día, podemos decir con confianza que incluso las etiquetadoras más experimentadas no pueden detectar consistentemente un deepfake con solo mirarlo.

Para respaldar esta declaración, ejecutamos un experimento interno de detección de deepfake. Pedimos a cinco de las 50 mejores etiquetadoras de nuestro equipo que etiquetaran un conjunto de datos que consiste en imágenes deepfake (intercambios faciales y rostros sintéticos) e imágenes en vivo de personas reales. Estábamos curiosos por ver cuál era el límite superior del desempeño humano en la detección de deepfake.

Los resultados nos sorprendieron al principio: ¡la etiquetadora promedio fue capaz de detectar 98.4% de deepfakes! No obstante, más tarde nos dimos cuenta de lo que había sucedido. El etiquetador promedio también rechazó más del 15% de los selfies reales. En otras palabras, estaban tratando de encontrar artefactos incluso donde no los había, y no pudieron distinguir entre artefactos deepfake y artefactos de cámaras/iluminación de baja calidad u otros factores. Por supuesto, tales números son inaceptables para cualquier tipo de producto.

Además de esto, para los humanos es realmente difícil distinguir entre una cara sintética, un intercambio de caras, o una animación facial. Incluso si podemos decir que estamos ante un deepfake, clasificar con precisión el tipo de deepfake plantea un reto importante.

Dadas estas complejidades, los etiquetadores solo pueden reclamar algo basado en múltiples señales de cada sesión, incluyendo, pero sin limitarse a, la puntuación del modelo de detección deepfake. Por otro lado, dado este desempeño limitado por parte de los mejores profesionales, queda claro que es imposible confiar de manera única en nuestra percepción visual cuando se trata de atrapar un deepfake.

Cómo Incode se defiende contra Deepfakes

Los estafadores utilizan técnicas similares para hacerse pasar por alguien hoy en día como lo hacían años atrás al realizar ataques de presentación física. Sin embargo, ahora recurren a deepfakes con la esperanza de lograr un mayor éxito que con métodos tradicionales como repeticiones o máscaras 3D.

La detección avanzada de deepfake de Incode está diseñada para un mundo donde los ataques de IA son la norma, no la excepción. Nos adelantamos al ataque en lugar de simplemente reaccionar ante él. Nuestra tecnología combina detección de vida multimodal con análisis de la señal de riesgo del dispositivo, la cámara y el comportamiento del usuario para ofrecer defensas pasivas e invisibles que no comprometan la experiencia del usuario.

Los deepfakes representan la evolución más avanzada del fraude de identidad hasta la fecha, combinando medios generados por IA, manipulación de dispositivos y suplantación de identidad en canalizaciones de ataque escalables. Las organizaciones ya no pueden confiar en defensas anticuadas de suplantación de identidad o comprobaciones de disponibilidad a nivel de superficie.

Más información sobre la detección de deepfake de Incode y la verificación biométrica de identidad.

Autor

Efim Boieru es un experto líder en IA y visión por computadora con más de diez años de experiencia. Ha desarrollado soluciones avanzadas de aprendizaje automático para las principales empresas tecnológicas, incluidas Huawei, Bosch y MIT. En Incode, lidera el desarrollo de tecnologías de detección de vivencias faciales y deepfake.

Referencias

Karras, T., Laine, S., & Aila, T. (2019). Una arquitectura de generador basada en estilo para redes generativas adversariales. En Actas de la Conferencia IEEE/CVF sobre Visión por Computación y Reconocimiento de Patrones (págs. 4401-4410). https://doi.org/10.48550/arXiv.1812.04948
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). Síntesis de imágenes de alta resolución con modelos de difusión latente. En Actas de la Conferencia IEEE/CVF sobre Visión por Computación y Reconocimiento de Patrones (págs. 10674-10685). https://doi.org/10.48550/arXiv.2112.10752
Gozalo-Brizuela, R., & Garrido-Merchan, E. E. (2024). Un estudio de las aplicaciones generativas de IA. Revista de Ciencias de la Computación, 20 (8), 801—818. https://doi.org/10.3844/jcssp.2024.801.818
chaindrop. (23 de marzo de 2023). Will Smith comiendo espagueti [Publicación de Reddit]. r/StableDiffusion. Recuperado de https://www.reddit.com/r/StableDiffusion/comments/1244h2c/will_smith_eating_spaghetti/
Fluxai.Art. (2025). Generador de rostros AI gratuito: genere caras a partir de texto o foto. Consultado el 29 de julio de 2025, de https://fluxai.art/features/ai-face-generator
Colaboradores de Wikipedia. (2025, 1 de julio). Prueba de comer espaguetis de Will Smith. En Wikipedia, La Enciclopedia Libre. Recuperado 29 de julio 2025 de https://en.wikipedia.org/wiki/Will_Smith_Eating_Spaghetti_test
Nguyen, K. (2025, 21 de mayo). Expandiendo Vertex AI con la próxima ola de modelos de medios de IA generativos: Imagen 4, Veo 3 y Lyria 2. Blog de Google Cloud. Recuperado de https://cloud.google.com/blog/products/ai-machine-learning/announcing-veo-3-imagen-4-and-lyria-2-on-vertex-ai
Kazemi, V., & Sullivan, J. (2014). Alineación facial de un milisegundo con un conjunto de árboles de regresión. En Actas de la Conferencia IEEE sobre Visión por Computación y Reconocimiento de Patrones (págs. 1867-1874). https://openaccess.thecvf.com/content_cvpr_2014/papers/Kazemi_One_Millisecond_Face_2014_CVPR_paper.pdf
Vidnoz. (2025). Intercambio facial gratuito en línea para un intercambio facial realista de foto/video; Aplicación de animación facial AI y en línea: Anime la cara a partir de la foto. Consultado el 29 de julio de 2025, de https://www.vidnoz.com/face-swap.html y https://www.vidnoz.com/ai-solutions/face-animator.html
Zajarov, E. [Egor Zakharov]. (2019, 21 de mayo). Aprendizaje adversarial de pocos disparos de modelos realistas de cabeza conversante neuronal [Video]. YouTube. https://www.youtube.com/watch?v=p1b5aiTrGzY

.vídeo-cara de vídeo {altura máx.: 400px;}

Incode

Incode is a global leader in AI-driven identity and trust, with a mission to power a world of trust at the speed of AI. The platform verifies identity and age, stops fraud, and turns verification into business enablement.

Chapters