· Jonathan Izquierdo · Técnico ·
Deepfakes de voz con IA: la nueva estafa telefónica
Los deepfakes de voz con IA permiten clonar una voz con solo 3 segundos de audio. Así operan las estafas telefónicas más sofisticadas de 2026 en España.

Tres segundos. Eso es todo lo que necesita un sistema de inteligencia artificial moderno para capturar la esencia de tu voz —timbre, entonación, cadencia, emoción— y replicarla con una fidelidad que engaña al 85% de los oyentes humanos. No hablamos de ciencia ficción, ni de una amenaza teórica que quizá se materialice en una década. Estamos hablando del presente: marzo de 2026, un momento en el que la clonación de voz con IA ya ha cruzado lo que los investigadores denominan el umbral de indistinguibilidad —el punto donde ni siquiera oídos entrenados pueden distinguir de forma fiable una voz real de una sintética—.
Un fragmento de audio extraído de un vídeo corporativo en LinkedIn. Un mensaje de voz de treinta segundos en un grupo de WhatsApp. Una intervención de cinco minutos en un pódcast. El saludo de tu buzón de voz.
Cualquiera de estas fuentes, por inocente que parezca, proporciona material más que suficiente para que un cibercriminal genere una réplica digital de tu voz capaz de solicitar una transferencia bancaria urgente, simular el llanto de un hijo secuestrado, hacerse pasar por tu jefe para exigir información confidencial, o suplantar a un empleado de tu banco para vaciar tu cuenta corriente.
Los datos son demoledores. Según el informe de Pindrop de 2025 sobre inteligencia de voz y seguridad, los intentos de fraude con deepfakes de voz se dispararon un 1.300% en 2024, pasando de un promedio de un intento al mes a siete intentos diarios en los centros de atención al cliente de grandes empresas [1]. La firma de verificación de identidad Sumsub documentó un incremento de 20 veces en el uso de deepfakes para fraude de identidad entre 2024 y 2026 [2]. Y según datos de DeepStrike, el volumen global de deepfakes creció de 500.000 en 2023 a más de 8 millones en 2025, con una tasa de crecimiento anual cercana al 900% [3].
España no es una isla en este tsunami. El Instituto Nacional de Ciberseguridad (INCIBE) publicó en 2025 alertas específicas sobre estafas telefónicas con voz clonada dirigidas a familias españolas [4]. La Policía Nacional emitió un comunicado alertando sobre una nueva modalidad de estafa que utiliza inteligencia artificial para clonar voces de familiares y simular emergencias [5]. Y las unidades de ciberdelincuencia de la Guardia Civil confirman un aumento sostenido de denuncias en las que la víctima declara: «Estaba completamente seguro de que era la voz de mi hijo».
Como perito informático forense especializado en autenticidad multimedia, analizo grabaciones de audio sospechosas para determinar si han sido generadas o manipuladas por inteligencia artificial. En los últimos doce meses he visto cómo los casos de deepfakes de voz en mi laboratorio han pasado de ser una rareza a convertirse en una consulta habitual. La tecnología de clonación es cada vez más accesible —y más barata—, pero la buena noticia es que también lo son las técnicas forenses para desenmascarar estas falsificaciones.
Este artículo es la guía más completa en español sobre los deepfakes de voz en 2026: cómo funciona la tecnología, qué herramientas utilizan los atacantes, cuáles son los tipos de estafa más frecuentes, qué casos reales se han documentado, cómo se realiza el análisis forense para detectarlos, qué dice la legislación española y europea, y cómo proteger a tu empresa y a tu familia frente a esta amenaza creciente.
A lo largo de más de 20.000 palabras, cubriremos:
- La ciencia: desde la historia de la síntesis de voz hasta las arquitecturas de redes neuronales que la hacen posible (WaveNet, Tacotron, VALL-E, XTTS).
- Las herramientas: un inventario de más de 20 herramientas de clonación, desde plataformas comerciales legítimas hasta servicios del mercado negro.
- Los ataques: 14 tipos diferentes de estafa documentados, con modus operandi detallado para cada uno.
- Los casos: 14 incidentes reales en España y el mundo, desde la pérdida de 25 millones de dólares en Hong Kong hasta las alertas del INCIBE y la Policía Nacional española.
- La defensa técnica: análisis espectral, formantes, MFCC, LFCC, patrones de respiración, detección por IA, y un proceso forense completo de 10 pasos.
- El derecho: artículos del Código Penal español, RGPD, AI Act, legislación comparada y práctica procesal.
- La protección: checklists de acción inmediata para empresas y particulares, protocolos de verificación, y guías específicas para personas mayores.
TL;DR: lo esencial en 60 segundos
En 60 segundos
- Qué es: la clonación de voz con IA permite generar audio sintético indistinguible de una voz real a partir de apenas 3 segundos de muestra. En 2026, la tecnología ha cruzado el umbral de indistinguibilidad según investigadores de referencia.
- Por qué importa: los fraudes con deepfake de voz se multiplicaron un 1.300% en 2024, con pérdidas globales superiores a 200 millones de dólares solo en el primer trimestre de 2025. El 25% de los consumidores estadounidenses ya ha recibido una llamada con voz clonada por IA.
- Qué hacer: implementar protocolos de verificación verbal con palabra clave secreta, aplicar doble canal de confirmación para transferencias, desconfiar de llamadas urgentes que pidan dinero, y contactar con un perito informático si sospechas que una grabación de audio ha sido manipulada.
- Cuándo actuar: inmediatamente si has recibido una llamada sospechosa. La preservación de la grabación original y sus metadatos es crítica para el análisis forense posterior. Cada minuto que pasa sin preservar la evidencia reduce las posibilidades de demostrar la manipulación.
Qué son los deepfakes de voz
Definición y concepto
Un deepfake de voz —también denominado audio deepfake, voice deepfake o voz sintética dirigida— es una grabación de audio generada mediante técnicas de inteligencia artificial que replica las características vocales de una persona específica para producir habla nueva que esa persona nunca pronunció. A diferencia de la edición de audio tradicional (cortar, pegar, mezclar fragmentos reales), un deepfake de voz genera sonido completamente nuevo a nivel de forma de onda, sintetizando cada fonema, cada inflexión, cada respiración de manera algorítmica.
El término deepfake combina «deep learning» (aprendizaje profundo) y «fake» (falso), y originalmente se popularizó en el contexto de vídeos manipulados de rostros. Sin embargo, la variante de audio ha demostrado ser, en muchos aspectos, más peligrosa que su contrapartida visual. Las razones son múltiples:
Requiere menos datos de entrenamiento: mientras que un deepfake de vídeo convincente necesita decenas de minutos o incluso horas de vídeo del objetivo, un deepfake de voz puede generarse con 3 a 30 segundos de audio.
Es más difícil de detectar: nuestro cerebro procesa las señales visuales con mayor capacidad discriminatoria que las auditivas. Detectamos micro-anomalías en un rostro sintético con relativa facilidad, pero somos extraordinariamente vulnerables a una voz familiar reproducida con fidelidad.
No requiere contacto visual: las estafas telefónicas explotan un canal donde la víctima no tiene ninguna referencia visual que le permita corroborar la identidad del interlocutor.
La infraestructura telefónica degrada la señal: la compresión inherente a las redes de telefonía (tanto GSM como VoIP) enmascara los artefactos que delatan el audio sintético, haciendo que un deepfake de calidad media suene indistinguible de una llamada real.
El contexto emocional anula el pensamiento crítico: cuando escuchas la voz de tu hijo llorando o la de tu jefe enfadado exigiendo urgencia, la amígdala cerebral desactiva la corteza prefrontal. El instinto de protección o de obediencia jerárquica se impone sobre el análisis racional.
Breve historia de la síntesis de voz
Para entender el contexto actual, conviene repasar brevemente la evolución de la tecnología de síntesis de voz, un campo que tiene décadas de investigación pero que ha experimentado una aceleración sin precedentes en los últimos cinco años.
Años 1950-1960: los primeros sintetizadores
El primer sistema de síntesis de voz fue el VODER (Voice Operating Demonstrator), presentado por Bell Labs en la Feria Mundial de Nueva York de 1939, aunque su desarrollo continuó en las décadas posteriores. Era un dispositivo analógico operado manualmente que producía sonidos vagamente parecidos al habla humana. En 1961, los Laboratorios Bell desarrollaron el primer sintetizador de voz por computadora, capaz de «cantar» la canción Daisy Bell —un momento que inspiró a Arthur C. Clarke para la escena de HAL 9000 en 2001: Una odisea del espacio.
Años 1970-1990: síntesis concatenativa y formantes
La investigación se dividió en dos enfoques principales. La síntesis por formantes modelaba matemáticamente las resonancias del tracto vocal humano para generar sonidos del habla de forma paramétrica. La síntesis concatenativa tomaba un enfoque diferente: grabar miles de fragmentos de habla real (fonemas, dífonos, trífonos) y concatenarlos para formar palabras y frases nuevas. Sistemas como DECtalk (1984) fueron pioneros en esta época, proporcionando a Stephen Hawking su icónica voz sintetizada.
Años 2000-2015: síntesis estadística
Los modelos ocultos de Markov (HMM) y la síntesis estadística paramétrica representaron un salto cualitativo. En lugar de concatenar segmentos de audio grabado, estos sistemas aprendían parámetros estadísticos de la voz a partir de grandes corpus de habla y generaban nuevas formas de onda basándose en modelos probabilísticos. La calidad mejoró notablemente, pero las voces seguían sonando «robóticas» e identificables como artificiales.
2016: WaveNet — el punto de inflexión
En septiembre de 2016, DeepMind (Google) publicó WaveNet, un modelo generativo de audio basado en redes neuronales convolucionales dilatadas que generaba formas de onda de audio muestra a muestra [6]. WaveNet produjo un salto cualitativo sin precedentes: por primera vez, la voz sintetizada sonaba natural, con respiraciones, entonación variable y las sutiles imperfecciones del habla humana. Los evaluadores humanos calificaron a WaveNet significativamente por encima de los sistemas anteriores, aunque su altísimo coste computacional lo hacía impracticable para uso en tiempo real.
2017-2018: Tacotron y la síntesis end-to-end
Google presentó Tacotron (2017) y Tacotron 2 (2018), arquitecturas de redes neuronales secuencia-a-secuencia que transformaban texto en espectrogramas mel, los cuales se convertían en audio mediante un vocoder neuronal (inicialmente WaveNet, después modelos más eficientes como WaveRNN y WaveGlow) [7]. Tacotron 2 demostró que era posible generar habla de calidad casi humana directamente desde texto, sin necesidad de complejos sistemas de ingeniería lingüística. Esta fue la base sobre la que se construyeron todos los sistemas de text-to-speech (TTS) modernos.
2019-2021: democratización
Mozilla lanzó TTS (después Coqui TTS), una implementación de código abierto de Tacotron y otros modelos de síntesis. Tortoise TTS, creado por James Betker en 2022, exploró el enfoque de modelado de lenguaje para TTS de cero disparos (zero-shot), entrenado con 49.000 horas de habla inglesa y capaz de clonar voces con muestras cortas [8]. Estos proyectos de código abierto pusieron la tecnología de clonación de voz al alcance de cualquier persona con conocimientos técnicos básicos y acceso a una GPU.
2023: VALL-E — clonación con 3 segundos
En enero de 2023, Microsoft Research presentó VALL-E, un modelo de código de lenguaje neuronal capaz de sintetizar habla personalizada a partir de tan solo 3 segundos de audio de referencia [9]. VALL-E trataba la síntesis de voz como un problema de modelado de lenguaje, utilizando tokens acústicos discretos derivados de un codec neuronal (EnCodec). Esto representó un cambio de paradigma: en lugar de aprender a generar formas de onda directamente, el modelo aprendía a «hablar» como un modelo de lenguaje aprende a «escribir», prediciendo la siguiente unidad acústica en una secuencia.
La versión posterior, VALL-E 2 (2024), alcanzó lo que Microsoft denominó «paridad humana» en la síntesis de voz de cero disparos: los evaluadores humanos no podían distinguir de forma fiable entre la voz original y el clon generado por VALL-E 2 [10].
2024: VALL-E X y la clonación multilingüe
Microsoft extendió VALL-E con VALL-E X, que añadió capacidades multilingües: a partir de una muestra de 3 a 10 segundos de un hablante en cualquier idioma, el sistema podía generar habla en otros idiomas con la misma voz, manteniendo el tono, la entonación, la emoción y la prosodia del hablante original [11]. Esto abrió la puerta a estafas transnacionales donde un criminal puede clonar la voz de un directivo español y hacerle «hablar» en inglés, francés o alemán.
2025-2026: el umbral de indistinguibilidad
Según una investigación publicada por Fortune en diciembre de 2025, citando a expertos en detección de deepfakes, la clonación de voz ha cruzado el «umbral de indistinguibilidad» [12]. Unos pocos segundos de audio bastan para generar un clon completo, con entonación natural, ritmo, énfasis, emoción, pausas e incluso ruido de respiración. Las principales plataformas comerciales (ElevenLabs, Respeecher, Fish Audio) y los modelos de código abierto (XTTS, OpenVoice, RVC) han alcanzado un nivel de calidad que difumina completamente la frontera entre lo real y lo sintético.
El hito de ElevenLabs: ElevenLabs, fundada en 2022, se ha convertido en la plataforma de referencia mundial para la generación de voz por IA. Su motor de TTS soporta más de 70 idiomas (incluido el español con calidad nativa), permite clonar voces con tan solo 3 segundos de audio, y alcanza una latencia inferior a 75 milisegundos para aplicaciones en tiempo real [12]. Su plan gratuito —que permite a cualquier persona clonar voces sin verificación de identidad— ha sido criticado por expertos en seguridad como una puerta abierta al abuso. En respuesta, ElevenLabs ha implementado herramientas de detección de uso fraudulento y un servicio de reporte de abusos, pero la eficacia de estas medidas es cuestionada.
El ecosistema de Hugging Face: Hugging Face, la plataforma de referencia para modelos de aprendizaje automático de código abierto, alberga cientos de modelos de síntesis y clonación de voz descargables gratuitamente. En su blog oficial, Hugging Face ha publicado artículos detallados que describen los diferentes tipos de deepfakes de voz, las técnicas utilizadas y los métodos de código abierto disponibles, proporcionando inadvertidamente una guía completa para quien quiera aprender a crear deepfakes de voz [44].
La explosión de XTTS: el modelo XTTS (Cross-lingual Text-to-Speech), desarrollado originalmente por Coqui AI antes de su cierre y mantenido ahora por la comunidad open source, se ha convertido en el modelo de referencia para la clonación de voz multilingüe de código abierto. XTTS v2, presentado en la conferencia Interspeech 2024, demostró capacidad de clonación zero-shot en 17 idiomas con calidad comparable a las plataformas comerciales, utilizando solo 6 segundos de audio de referencia [39]. Su disponibilidad como código abierto y su facilidad de ejecución en GPUs de consumo lo convierten en una herramienta particularmente accesible —y potencialmente peligrosa—.
Cuánto audio se necesita realmente
La cantidad de audio necesaria para generar un clon de voz convincente ha disminuido de forma exponencial en la última década:
| Año | Tecnología | Audio mínimo necesario | Calidad resultante |
|---|---|---|---|
| 2015 | Síntesis concatenativa adaptada | 10-20 horas | Baja-media |
| 2017 | Tacotron + transfer learning | 30-60 minutos | Media |
| 2019 | Coqui TTS fine-tuning | 5-15 minutos | Media-alta |
| 2022 | Tortoise TTS / So-VITS-SVC | 1-5 minutos | Alta |
| 2023 | VALL-E (zero-shot) | 3 segundos | Alta |
| 2024 | VALL-E 2 / XTTS v2 | 3-6 segundos | Muy alta (paridad humana) |
| 2025 | ElevenLabs v3 / OpenVoice v2 | 3 segundos | Indistinguible |
| 2026 | Modelos actuales multimodales | 1-3 segundos | Indistinguible |
Esta progresión tiene implicaciones devastadoras para la seguridad. En 2015, clonar una voz requería acceso prolongado a la persona objetivo y equipamiento especializado. En 2026, un mensaje de voz de WhatsApp de tres segundos diciendo «vale, ahora te llamo» proporciona material suficiente para que un atacante genere minutos de discurso sintético indetectable a oído humano.
El problema de la irrevocabilidad vocal
A diferencia de una contraseña comprometida, que puede cambiarse en minutos, o de una tarjeta de crédito robada, que puede bloquearse con una llamada, la voz humana es un identificador biométrico irrevocable. No puedes cambiar tu voz. No puedes revocarla. No puedes emitir una «nueva voz» como emites una nueva tarjeta.
Esta irrevocabilidad tiene consecuencias profundas:
Exposición acumulativa: cada vídeo que publicas, cada mensaje de voz que envías, cada llamada que realizas a un servicio que graba las llamadas, incrementa permanentemente la cantidad de material disponible para un potencial atacante. Esta exposición solo crece con el tiempo; nunca disminuye.
Persistencia del riesgo: un audio de tu voz grabado en 2020 sigue siendo válido para clonación en 2026. Las características vocales fundamentales (frecuencia fundamental, estructura de formantes, timbre) cambian muy lentamente con la edad. Un clon generado a partir de una grabación de hace cinco años seguirá siendo reconocible como tu voz.
Vectores de ataque múltiples: mientras que para robar una contraseña el atacante necesita acceder a un sistema específico, para obtener una muestra de tu voz tiene decenas de fuentes potenciales, la mayoría de las cuales están fuera de tu control (grabaciones de llamadas en centralitas de empresas, grabaciones de videoconferencias almacenadas en servidores de terceros, vídeos publicados por otras personas donde apareces hablando).
Imposibilidad de monitorización: no existe un equivalente al «monitor de dark web» para las contraseñas que te avise de que alguien está utilizando tu voz clonada. Puedes descubrir que tu voz ha sido clonada solo si un familiar o colega recibe una llamada con tu voz y tiene la presencia de ánimo de verificar contigo.
Esta realidad impone un cambio de paradigma en la seguridad: ya no podemos confiar en la voz como mecanismo de autenticación. La frase «me lo dijo personalmente por teléfono» ha dejado de ser una garantía de autenticidad.
La psicología de la vulnerabilidad
El éxito de las estafas con deepfake de voz no se explica solo por la calidad técnica del clon. Existe un componente psicológico fundamental que los criminales explotan de forma sistemática.
El sesgo de familiaridad: cuando escuchamos una voz que nuestro cerebro reconoce como familiar, se activan circuitos neuronales de confianza y se desactivan los de alerta. Este es un mecanismo evolutivo profundamente arraigado: la voz de un miembro del grupo tribal indicaba seguridad. Los estafadores explotan este mecanismo utilizando voces clonadas de personas que la víctima conoce y en las que confía.
La respuesta de estrés agudo: las estafas de emergencia familiar están diseñadas específicamente para provocar una respuesta de estrés agudo (fight-or-flight). Cuando escuchas la «voz» de tu hijo llorando y pidiendo ayuda, tu sistema nervioso simpático se activa: aumenta el ritmo cardíaco, se libera adrenalina, y la corteza prefrontal (responsable del pensamiento crítico y la toma de decisiones racional) se inhibe parcialmente. En este estado, las víctimas son extraordinariamente susceptibles a seguir instrucciones sin cuestionarlas.
El principio de autoridad: en el fraude del CEO, el atacante explota el sesgo de autoridad descrito por Milgram. Cuando un empleado recibe instrucciones de su jefe —incluso instrucciones inusuales—, la tendencia natural es obedecer. La voz clonada del CEO refuerza enormemente esta dinámica, porque la víctima no solo recibe instrucciones de alguien que dice ser el CEO, sino de alguien que suena como el CEO.
El sesgo de coherencia narrativa: las estafas más sofisticadas construyen una narrativa coherente que refuerza la credibilidad. El falso CEO no solo solicita una transferencia; menciona proyectos reales de la empresa, nombres de colegas, eventos recientes. Cuantos más detalles verdaderos incluya la narrativa, más difícil es para la víctima cuestionar el elemento falso (la identidad del interlocutor).
La presión temporal: todas las estafas con deepfake de voz incorporan un elemento de urgencia artificial: «tiene que salir hoy», «es urgente», «si no pagas en una hora…». La presión temporal impide que la víctima tome el tiempo necesario para verificar, que consulte con colegas o familiares, que reflexione sobre la situación.
El umbral perceptivo humano
¿Por qué somos tan vulnerables a los deepfakes de voz? La respuesta está en la neurociencia de la percepción auditiva. El cerebro humano identifica a las personas por voz utilizando un conjunto reducido de características acústicas:
- Frecuencia fundamental (F0): la frecuencia base de la vibración de las cuerdas vocales, que determina si percibimos una voz como «grave» o «aguda».
- Formantes (F1-F4): las frecuencias de resonancia del tracto vocal, que caracterizan los sonidos vocálicos y son lo que nos permite distinguir una «a» de una «o».
- Timbre: la distribución de armónicos y parciales que da a cada voz su «color» característico.
- Prosodia: los patrones de entonación, ritmo y acentuación que caracterizan el estilo de habla de cada persona.
Los sistemas modernos de clonación de voz replican todas estas características con alta fidelidad. Y el canal telefónico —con su ancho de banda limitado a 300-3.400 Hz en telefonía tradicional, o 50-7.000 Hz en HD Voice— elimina precisamente las frecuencias más altas donde los artefactos de la síntesis son más evidentes. En otras palabras: la red telefónica actúa como un filtro que enmascara las imperfecciones del deepfake, haciendo que suene más convincente a través del teléfono que en una reproducción directa con auriculares de alta fidelidad.
Cómo suena un deepfake: guía auditiva
Para un oyente no entrenado, distinguir un deepfake de voz de alta calidad de una grabación real es extraordinariamente difícil, especialmente a través del canal telefónico. Sin embargo, existen ciertos patrones que pueden servir como indicadores:
Lo que un deepfake hace bien:
- Replica el timbre, la frecuencia fundamental y los formantes del hablante objetivo con alta fidelidad.
- Reproduce el acento, el dialecto y muchas de las características prosódicas del hablante.
- En los mejores modelos, genera entonación emocional coherente (enfado, urgencia, tristeza).
- Puede incluir algunas muletillas y patrones de habla del hablante original si fue entrenado con suficientes datos.
Lo que un deepfake hace mal (a fecha de marzo de 2026):
- Respiración: la ausencia o artificialidad de las respiraciones sigue siendo la debilidad más consistente. Los modelos más avanzados intentan generar respiraciones, pero su timing, duración y características espectrales a menudo no son naturales.
- Pausas llenas: los «eeh», «mmm», «bueno», «a ver» que salpican el habla natural española son extremadamente difíciles de generar de forma convincente. Su ausencia completa o su inserción forzada son indicadores.
- Transiciones emocionales: un deepfake puede generar habla con una emoción constante (enfado sostenido, tristeza sostenida), pero tiene dificultades para las transiciones naturales entre emociones dentro de una misma conversación.
- Reacciones espontáneas: risas, carraspeos, estornudos, chasquidos de lengua, bostezos, suspiros — todos estos sonidos paralingüísticos son difíciles de generar de forma natural y coherente con el contexto.
- Prosodia de preguntas retóricas y exclamaciones: la entonación de las preguntas retóricas, las exclamaciones de sorpresa y otros patrones prosódicos marcados del español puede sonar ligeramente forzada.
- Nombres propios y palabras poco comunes: los modelos de TTS pueden pronunciar incorrectamente nombres propios, topónimos o palabras técnicas que no aparecían en los datos de entrenamiento.
Ejemplo práctico de detección auditiva:
Imagina que recibes una llamada de tu «jefe» solicitando una transferencia urgente. Estas son las preguntas que deberías hacerte mentalmente mientras escuchas:
- ¿Escucho respiraciones entre las frases? ¿Suenan naturales?
- ¿Mi jefe habla así normalmente? ¿Usa estas palabras? ¿Tiene estas muletillas?
- ¿La entonación es natural o parece «leída»?
- ¿Hay micro-silencios naturales o las frases se suceden de forma mecánica?
- ¿Si le hago una pregunta inesperada, responde con naturalidad y sin retardo?
- ¿Conoce la palabra clave secreta que acordamos?
Si cualquiera de estas respuestas te genera duda, cuelga y llama tú al número oficial de tu jefe.
La dimensión ética del uso legítimo
No toda la clonación de voz es criminal. Existen usos legítimos y éticamente defendibles de esta tecnología que merecen mención:
Accesibilidad: las personas que han perdido la capacidad de hablar debido a enfermedades (esclerosis lateral amiotrófica, cáncer de laringe, accidentes cerebrovasculares) pueden preservar su voz antes de perderla y utilizarla después a través de un sintetizador. La organización VocaliD y proyectos como «My Voice» de Acapela permiten a los pacientes «bancar» su voz antes de una laringectomía.
Producción audiovisual: la industria del cine y los videojuegos utiliza clonación de voz para doblar actores a otros idiomas manteniendo su voz original, para completar grabaciones de actores fallecidos (con autorización de sus herederos), y para crear personajes con voces específicas. Respeecher fue utilizado por Lucasfilm para recrear la voz joven de Luke Skywalker en The Book of Boba Fett y The Mandalorian, con el consentimiento explícito de Mark Hamill.
Localización de contenidos: la clonación de voz permite traducir pódcasts, cursos online y contenido audiovisual a otros idiomas manteniendo la voz del autor original, mejorando la accesibilidad y la experiencia del usuario.
Preservación cultural: la grabación y clonación de voces de hablantes de lenguas en peligro de extinción puede contribuir a la preservación del patrimonio lingüístico.
Comunicación personal: personas que desean dejar mensajes póstumos para sus familias con su propia voz, o que desean comunicarse con sus seres queridos a pesar de una discapacidad vocal.
La clave ética es el consentimiento informado: clonar tu propia voz para uso personal o con tu consentimiento explícito es legítimo. Clonar la voz de otra persona sin su consentimiento, o con consentimiento pero para fines no autorizados, es ilícito.
Impacto en la industria del entretenimiento y los medios
Los deepfakes de voz están transformando la industria del entretenimiento y los medios de comunicación, creando tanto oportunidades como riesgos:
Doblaje con IA: las plataformas de streaming están comenzando a utilizar clonación de voz para doblar actores a otros idiomas manteniendo su voz original. Netflix, Disney+ y Amazon Prime han experimentado con esta tecnología. Esto plantea cuestiones de derechos de los actores sobre su voz, que los sindicatos (como SAG-AFTRA en EE.UU.) están negociando activamente.
Pódcasts y audiolibros con voces clonadas: los creadores de contenido utilizan clonación de voz para producir versiones de sus pódcasts en otros idiomas, o para que su voz «lea» sus libros incluso cuando no tienen tiempo de grabar. Spotify y Audible ya integran herramientas de clonación de voz para creadores.
Periodismo: la posibilidad de fabricar declaraciones de figuras públicas con voces clonadas obliga a los medios de comunicación a verificar la autenticidad de las grabaciones de audio que publican. Algunos medios están implementando herramientas de detección de deepfakes como parte de su proceso editorial.
Música: la clonación de voz de artistas fallecidos (o de artistas vivos sin su consentimiento) para crear nuevas canciones plantea cuestiones de propiedad intelectual y derechos morales sin precedentes. El caso de «Heart on My Sleeve» (una canción que utilizaba voces clonadas de Drake y The Weeknd) generó un debate global sobre los límites legales de la clonación de voz en la música.
Videojuegos: la industria del videojuego utiliza clonación de voz para generar diálogos dinámicos que se adaptan a las decisiones del jugador, reduciendo costes de producción pero generando tensiones con los actores de doblaje profesionales.
La tecnología detrás de la clonación de voz
Arquitectura de los sistemas modernos
Los sistemas actuales de clonación de voz se basan en arquitecturas de aprendizaje profundo que pueden clasificarse en tres grandes familias, cada una con sus propias fortalezas, debilidades y niveles de accesibilidad para los atacantes.
1. Text-to-Speech personalizado (TTS)
El enfoque más común. El atacante introduce un texto escrito y el sistema lo «lee» con la voz del objetivo. El proceso técnico sigue estas etapas:
a) Extracción del embedding de voz (voice embedding)
El primer paso es analizar la muestra de audio del objetivo para extraer un vector numérico de alta dimensión (típicamente 256 o 512 dimensiones) que codifica las características únicas de esa voz. Este vector, llamado speaker embedding o voice embedding, funciona como una «huella digital vocal» matemática. Se obtiene mediante un modelo de verificación de hablante (como ECAPA-TDNN, GE2E o X-vector) que ha sido entrenado con miles de voces diferentes para aprender a distinguirlas.
b) Generación del espectrograma mel
El texto de entrada se tokeniza y se procesa a través de un modelo secuencia-a-secuencia (como Tacotron 2, FastSpeech 2, o un transformer con atención) condicionado por el embedding de voz extraído en el paso anterior. El resultado es un espectrograma mel: una representación bidimensional del sonido donde el eje horizontal es el tiempo, el eje vertical son las frecuencias (en escala mel, que aproxima la percepción humana de la frecuencia) y la intensidad se codifica con colores o niveles de gris.
c) Conversión a forma de onda (vocoder)
El espectrograma mel se convierte en una forma de onda de audio audible mediante un vocoder neuronal. Los vocoders más utilizados incluyen HiFi-GAN, WaveGlow, Parallel WaveGAN y UnivNet. Estos modelos generan audio a 22.050 o 44.100 muestras por segundo, produciendo una señal de alta calidad que replica el espectro armónico, el ruido aspirado y las características temporales del habla natural.
d) Postprocesado
Opcionalmente, el audio generado se somete a un postprocesado que puede incluir: normalización de volumen, adición de ruido de fondo realista (para simular un entorno de llamada), aplicación de códecs telefónicos (como AMR-NB o Opus) para que suene como una llamada real, y ajuste de la reverberación del espacio virtual.
2. Voice Conversion (VC)
En la conversión de voz, el atacante habla con su propia voz y el sistema la transforma en tiempo real a la voz del objetivo. A diferencia del TTS, la conversión de voz preserva la prosodia natural del hablante original: las pausas, la entonación emocional, las vacilaciones, las risas. Esto produce un resultado extraordinariamente convincente porque la «actuación vocal» es humana; solo el timbre y las características espectrales se transforman.
El proceso técnico de la conversión de voz moderna (basada en modelos como RVC —Retrieval-based Voice Conversion— o So-VITS-SVC) funciona así:
a) Extracción de características del audio fuente
El audio del atacante hablando se descompone en:
- Contenido fonético (qué se dice): extraído mediante un modelo de reconocimiento de habla o un modelo auto-supervisado como HuBERT, Wav2Vec 2.0 o ContentVec.
- Prosodia (cómo se dice): frecuencia fundamental, energía, duración de fonemas.
- Identidad del hablante: que será reemplazada por la del objetivo.
b) Sustitución de la identidad vocal
El embedding de hablante del audio fuente se reemplaza por el del hablante objetivo, manteniendo intactos el contenido fonético y la prosodia.
c) Síntesis
Un decodificador neuronal (típicamente basado en una arquitectura de flujo normalizado o un decodificador adversarial) reconstruye el audio con las nuevas características vocales.
d) Operación en tiempo real
Los sistemas más avanzados de 2026 pueden realizar esta conversión con una latencia inferior a 40 milisegundos, lo que permite su uso en llamadas telefónicas en directo sin que el interlocutor perciba retardo alguno.
3. Modelos de codec de lenguaje neuronal (Neural Codec Language Models)
Esta es la familia más reciente y la que ha producido los resultados más impactantes. VALL-E, VALL-E X, SoundStorm de Google, Voicebox de Meta, y sus sucesores tratan la síntesis de voz como un problema de modelado de lenguaje: en lugar de generar directamente espectrogramas o formas de onda, generan secuencias de tokens acústicos discretos.
El proceso funciona así:
a) Tokenización acústica
Un codec neuronal (como EnCodec de Meta o SoundStream de Google) convierte el audio en una secuencia de tokens discretos, similar a cómo un tokenizador de texto convierte palabras en números. Estos tokens capturan tanto el contenido semántico del habla como las características acústicas del hablante, organizados en múltiples niveles de codificación (coarse-to-fine).
b) Modelado autoregresivo
Un modelo de lenguaje transformer, condicionado por el texto de entrada y una muestra breve de la voz objetivo, predice la secuencia de tokens acústicos de la misma manera que un modelo como GPT predice la siguiente palabra en una oración. La muestra de 3 segundos proporciona el «contexto vocal» que el modelo necesita para generar tokens acústicos coherentes con esa voz específica.
c) Decodificación
Los tokens acústicos predichos se decodifican de vuelta a audio mediante el decodificador del codec neuronal.
La ventaja de este enfoque es que hereda todo el poder de los modelos de lenguaje de gran escala: capacidad de generalización, coherencia a largo plazo, y la capacidad de aprender de enormes cantidades de datos de habla sin supervisión explícita. VALL-E fue entrenado con 60.000 horas de habla en inglés; modelos posteriores han escalado a cientos de miles de horas y múltiples idiomas.
Diferencias entre modelos autoregresivos y no autoregresivos
Los modelos de síntesis de voz se dividen en dos grandes familias según su método de generación:
Modelos autoregresivos (AR): generan la salida de forma secuencial, token a token (o muestra a muestra). Cada nuevo token se genera condicionado por todos los anteriores. VALL-E, VALL-E X y Tortoise TTS utilizan este enfoque.
Ventajas:
- Capturan dependencias a largo plazo de forma natural.
- Producen habla con alta coherencia prosódica.
- Pueden generar variaciones naturales (la misma frase genera audio ligeramente diferente cada vez).
Desventajas:
- Son lentos: la generación es secuencial, no paralelizable.
- Pueden sufrir problemas de acumulación de errores (si un token se genera incorrectamente, los siguientes se ven afectados).
- Pueden generar repeticiones o omisiones de texto.
Modelos no autoregresivos (NAR): generan toda la salida de forma paralela o en unos pocos pasos de refinamiento. FastSpeech 2, VITS y algunos componentes de los modelos de codec modernos utilizan este enfoque.
Ventajas:
- Son mucho más rápidos: la generación es paralela.
- No sufren acumulación de errores.
- Son más estables (menos probabilidad de repeticiones u omisiones).
Desventajas:
- Pueden producir habla menos natural (especialmente en prosodia).
- La generación determinista puede carecer de la variabilidad natural del habla.
Modelos híbridos: los sistemas más avanzados de 2026 combinan ambos enfoques. Por ejemplo, un modelo AR genera los tokens acústicos gruesos (que capturan la prosodia y la identidad del hablante) y un modelo NAR genera los tokens finos (que añaden la calidad y los detalles del audio). Esta combinación ofrece lo mejor de ambos mundos: coherencia prosódica del AR con la velocidad y estabilidad del NAR.
Desde la perspectiva forense, la distinción es relevante porque los modelos AR y NAR dejan firmas estadísticas diferentes en el audio generado:
- Los modelos AR tienden a producir distribuciones de duración de fonemas más variables (parecidas a la distribución natural).
- Los modelos NAR tienden a producir duraciones más uniformes (menos variabilidad intra-hablante).
- Los modelos híbridos pueden ser más difíciles de detectar porque combinan las fortalezas de ambos enfoques.
Evaluación de calidad: métricas objetivas y subjetivas
La calidad de la clonación de voz se evalúa mediante una combinación de métricas objetivas (calculadas algorítmicamente) y subjetivas (evaluadas por oyentes humanos):
Métricas subjetivas:
| Métrica | Escala | Qué evalúa | Protocolo |
|---|---|---|---|
| MOS (Mean Opinion Score) | 1-5 | Naturalidad general del habla | Oyentes humanos puntúan cada muestra |
| SMOS (Speaker MOS) | 1-5 | Similitud con el hablante objetivo | Oyentes comparan la muestra con una referencia del hablante |
| CMOS (Comparative MOS) | -3 a +3 | Comparación relativa entre dos sistemas | Oyentes indican cuál suena mejor y cuánto |
| ABX test | % acierto | Capacidad de distinguir real de sintético | Oyentes deben identificar la muestra sintética |
Métricas objetivas:
| Métrica | Qué mide | Relevancia |
|---|---|---|
| WER (Word Error Rate) | Inteligibilidad (% de palabras reconocidas por ASR) | Alta: un deepfake debe ser inteligible |
| CER (Character Error Rate) | Similar a WER pero a nivel de carácter | Complementaria a WER |
| Speaker Cosine Similarity | Similaridad del embedding de hablante entre referencia y clon | Alta: mide la fidelidad de la clonación |
| F0 RMSE | Error cuadrático medio de la frecuencia fundamental | Media: mide la precisión de la entonación |
| MCD (Mel Cepstral Distortion) | Distorsión espectral entre audio objetivo y generado | Alta: métrica estándar de calidad de vocoder |
| PESQ (Perceptual Evaluation of Speech Quality) | Calidad perceptiva estimada | Media: diseñada para telefonía, no para TTS |
| UTMOS | MOS estimado por IA | Alta: aproximación automatizada al MOS humano |
Los mejores sistemas de 2026 alcanzan:
- MOS > 4.7 (donde 5.0 es la puntuación típica de habla natural).
- Speaker Cosine Similarity > 0.90 con solo 3 segundos de referencia.
- ABX test: menos del 15% de oyentes distinguen el clon del original (es decir, más del 85% son engañados).
Estas métricas confirman que la tecnología ha alcanzado un nivel donde la detección humana (por oído) ya no es fiable, reforzando la necesidad de herramientas de detección forense automatizada.
Zero-shot vs. few-shot vs. fine-tuning
Los tres enfoques de personalización de voz difieren significativamente en sus requisitos y resultados:
| Enfoque | Audio necesario | Tiempo de adaptación | Calidad | Uso criminal |
|---|---|---|---|---|
| Zero-shot | 3-10 segundos | Ninguno (inferencia directa) | Alta (2026) | Muy alto: no necesita preparación previa |
| Few-shot | 30 seg - 5 min | 1-5 minutos de procesamiento | Muy alta | Alto: requiere algo más de muestra |
| Fine-tuning | 15-60 minutos | 30 min - 4 horas de entrenamiento | Máxima | Medio: requiere tiempo, GPU y muestra extensa |
Zero-shot (cero disparos): el modelo genera la voz clonada sin ningún entrenamiento previo, utilizando solo una breve muestra de referencia durante la inferencia. Es el enfoque más peligroso desde la perspectiva criminal porque requiere la mínima cantidad de datos y no necesita ningún proceso de adaptación. El atacante simplemente proporciona 3 segundos de audio y el texto que quiere que se «diga».
Few-shot (pocos disparos): el modelo realiza una adaptación rápida (a menudo llamada prompt tuning o in-context learning) con unos pocos minutos de audio. Mejora la fidelidad respecto al zero-shot, especialmente en peculiaridades prosódicas y muletillas del hablante.
Fine-tuning (ajuste fino): el modelo base se reentena parcialmente con datos de la voz objetivo, modificando los pesos de la red neuronal. Produce la máxima fidelidad, pero requiere más datos, más tiempo y conocimientos técnicos para evitar el sobreajuste (overfitting). Los ataques más sofisticados —como el fraude del CEO dirigido a grandes empresas— pueden utilizar este enfoque, invirtiendo días en preparar un clon perfecto.
Requisitos de hardware
Los requisitos computacionales para ejecutar modelos de clonación de voz han disminuido drásticamente:
| Modelo | GPU mínima | VRAM necesaria | Tiempo de generación (30 seg audio) |
|---|---|---|---|
| XTTS v2 | NVIDIA GTX 1060 | 4 GB | ~15 segundos |
| RVC (conversión) | NVIDIA GTX 1660 | 6 GB | Tiempo real |
| OpenVoice v2 | NVIDIA RTX 3060 | 8 GB | ~10 segundos |
| Tortoise TTS | NVIDIA RTX 3080 | 10 GB | ~45 segundos |
| VALL-E (réplica) | NVIDIA RTX 4090 | 24 GB | ~8 segundos |
| ElevenLabs (nube) | Ninguna (API) | N/A | ~3 segundos |
La tendencia es clara: los modelos son cada vez más eficientes. Un portátil gaming de gama media con una GPU NVIDIA RTX 3060 es suficiente para ejecutar la mayoría de modelos de clonación de código abierto. Y los servicios en la nube como ElevenLabs o Fish Audio eliminan por completo la barrera del hardware: cualquier persona con un navegador web y una tarjeta de crédito (o una cuenta gratuita) puede clonar una voz en minutos.
Para el uso criminal, esto significa que el coste de entrada es prácticamente cero. Un criminal no necesita conocimientos de aprendizaje profundo, ni una GPU potente, ni semanas de preparación. Las herramientas están disponibles, documentadas y, en muchos casos, son gratuitas.
Anatomía técnica de un vocoder neuronal
Para entender por qué los deepfakes suenan tan convincentes, es necesario comprender cómo funcionan los vocoders neuronales —los componentes que convierten representaciones abstractas (espectrogramas mel) en audio audible.
Un vocoder neuronal es una red neuronal generativa que produce formas de onda de audio a frecuencias de muestreo de 22.050 Hz o superiores (es decir, genera entre 22.050 y 48.000 valores numéricos por segundo de audio). Los principales tipos incluyen:
HiFi-GAN (2020): utiliza una arquitectura de red generativa adversarial (GAN) con múltiples discriminadores que evalúan el audio generado a diferentes escalas temporales y frecuenciales. El generador produce la forma de onda y los discriminadores la evalúan, forzando al generador a producir audio cada vez más realista. HiFi-GAN logra generación en tiempo real con calidad comparable a WaveNet pero 1.000 veces más rápido. Es el vocoder más utilizado en los sistemas de clonación de voz de 2026.
WaveGlow (2018): un modelo de flujo normalizado (normalizing flow) que genera audio en paralelo (todas las muestras simultáneamente, en lugar de una por una). Aunque superado en calidad por HiFi-GAN, sigue siendo utilizado en algunos sistemas por su estabilidad de entrenamiento.
UnivNet (2022): un vocoder neuronal de alta fidelidad que utiliza representaciones de tiempo-frecuencia multi-resolución, logrando una calidad de audio superior en la reproducción de detalles finos del habla como consonantes fricativas y sonidos sordos.
Vocos (2023): un vocoder extremadamente eficiente basado en la reconstrucción directa de magnitud espectral, capaz de generar audio de alta calidad con una fracción del coste computacional de HiFi-GAN.
La elección del vocoder tiene un impacto directo en la detectabilidad del deepfake: cada vocoder deja una «firma espectral» específica en el audio generado, especialmente en las frecuencias altas (>8 kHz) y en la estructura del ruido de fondo. Un perito forense entrenado puede, en algunos casos, identificar no solo que un audio es sintético, sino qué vocoder se utilizó para generarlo.
Vocoders neuronales: comparativa técnica detallada
Los vocoders neuronales son un componente crítico del pipeline de clonación de voz, y la comprensión de sus características técnicas es esencial tanto para el atacante (que busca maximizar la calidad) como para el analista forense (que busca identificar la firma del vocoder).
HiFi-GAN (Kong et al., 2020)
HiFi-GAN es el vocoder neuronal más utilizado en los sistemas de clonación de voz de 2026. Su arquitectura consta de:
- Generador: una serie de bloques de transposed convolution que producen la forma de onda a frecuencia de muestreo completa, con residual blocks que modelan detalles finos.
- Multi-Period Discriminator (MPD): evalúa el audio generado a múltiples periodos temporales, detectando artefactos en diferentes escalas de la señal.
- Multi-Scale Discriminator (MSD): evalúa el audio a múltiples escalas de frecuencia, asegurando que tanto las frecuencias bajas como las altas sean realistas.
La combinación de MPD y MSD obliga al generador a producir audio realista en todas las escalas temporales y frecuenciales, lo que explica su alta calidad. Sin embargo, HiFi-GAN deja firmas forenses detectables:
- Artefactos de aliasing en frecuencias cercanas a la frecuencia de Nyquist (mitad de la frecuencia de muestreo).
- Periodicidad espuria en las bandas de frecuencia alta (>10 kHz) con periodos que corresponden al stride de las transposed convolutions.
- Distribución de energía ligeramente diferente en las regiones de alta frecuencia respecto al habla natural.
WaveGlow (Prenger et al., 2019)
WaveGlow utiliza una arquitectura de flujo normalizado (Glow) que permite generación paralela. A diferencia de HiFi-GAN (que es adversarial), WaveGlow se entrena maximizando la verosimilitud exacta de los datos. Sus firmas forenses incluyen:
- Ruido de cuantización de flujo: artefactos sutiles derivados del mapeo entre el espacio latente gaussiano y el espacio de audio.
- Espectro de ruido no natural: el ruido de fondo generado por WaveGlow tiene una distribución espectral ligeramente diferente al ruido de grabación real.
UnivNet (Jang et al., 2022)
UnivNet utiliza representaciones multi-resolución de la señal y un generador con bloques LVC (Location-Variable Convolution). Su ventaja principal es la fidelidad superior en la reproducción de fricativas y sonidos sordos (que son los más difíciles para los vocoders). Sus firmas forenses son más sutiles que las de HiFi-GAN, lo que lo convierte en un vocoder más difícil de detectar.
BigVGAN (Lee et al., 2023)
BigVGAN (Big Vocoding Generative Adversarial Network) es una evolución de HiFi-GAN que escala el generador a un mayor número de parámetros y utiliza activaciones Snake para mejorar la modelización de formas de onda periódicas. Produce audio de altísima calidad con artefactos mínimos, representando uno de los mayores desafíos para la detección forense.
Vocos (Siuzdak, 2023)
Vocos es un vocoder extremadamente eficiente que reconstruye la forma de onda directamente desde la magnitud del espectrograma STFT, sin necesidad de estimación de fase explícita. Su eficiencia computacional (varias veces más rápido que HiFi-GAN) lo hace atractivo para aplicaciones en tiempo real. Desde la perspectiva forense, su firma es diferente a la de los vocoders basados en mel-spectrogram, lo que requiere detectores específicamente entrenados.
La diversidad de vocoders disponibles plantea un desafío significativo para la detección: un detector entrenado para identificar artefactos de HiFi-GAN puede no detectar audio generado con Vocos o BigVGAN. Por esto, el enfoque de ensemble (múltiples detectores) es fundamental.
El papel de los codecs neuronales en la clonación moderna
Los codecs neuronales (como EnCodec de Meta y SoundStream de Google) representan un cambio paradigmático en la representación del audio. A diferencia de los codecs tradicionales (MP3, AAC, Opus) que comprimen audio utilizando modelos psicoacústicos predefinidos, los codecs neuronales aprenden a comprimir y descomprimir audio de extremo a extremo mediante redes neuronales.
Un codec neuronal funciona así:
- Encoder: analiza el audio de entrada y genera una representación latente de baja dimensionalidad.
- Cuantización vectorial residual (RVQ): discretiza la representación latente en una secuencia de tokens de un vocabulario finito. Esto produce múltiples «capas» de tokens, donde la primera capa captura la estructura gruesa del audio (contenido semántico, identidad del hablante) y las capas sucesivas añaden detalles progresivos (textura, calidad acústica).
- Decoder: reconstruye el audio a partir de los tokens cuantizados.
La innovación de VALL-E fue tratar estos tokens acústicos como si fueran tokens de texto, y aplicar un modelo de lenguaje para predecir la secuencia de tokens que corresponde a un texto dado con una voz determinada. Esto permitió por primera vez la clonación de voz verdaderamente de cero disparos: el modelo de lenguaje, al haber sido entrenado con miles de hablantes, puede «generalizar» a voces que nunca ha visto, simplemente extrapolando desde los tokens de la muestra de referencia.
EnCodec, el codec neuronal de Meta, opera a tasas de bits de 1,5 a 24 kbps, comprimiendo el audio 10-90 veces respecto al PCM original sin pérdida perceptible de calidad. Esta eficiencia es lo que permite a los modelos de lenguaje trabajar con secuencias de tokens acústicos de longitud manejable.
El pipeline completo de un ataque de clonación
Para un perito forense, comprender el pipeline técnico completo de un ataque de clonación de voz es esencial para identificar las trazas que cada etapa deja en el audio final. El pipeline típico de un ataque en 2026 consta de las siguientes etapas:
Etapa 1 — Adquisición de la muestra objetivo El atacante obtiene una grabación de audio del objetivo. Esta grabación puede estar en cualquier formato (MP3, AAC, WAV, OGG, OPUS) y puede haber pasado por múltiples procesos de compresión.
Traza forense: si la muestra original tiene baja calidad (p.ej., audio de un vídeo de YouTube a 128 kbps), las limitaciones de la muestra se reflejan en el clon resultante: el clon no puede tener mejor calidad que su muestra de referencia en los aspectos que dependen de la información que la compresión destruyó.
Etapa 2 — Preprocesado de la muestra Se elimina el ruido de fondo, se normaliza el volumen, se recorta el silencio y se segmenta la muestra en tramos de habla limpia. Herramientas como Denoiser de Meta, RNNoise o iZotope RX se utilizan para limpiar el audio.
Traza forense: el preprocesado puede dejar artefactos de supresión de ruido (artefactos «musicales», huecos en el espectro donde se eliminó el ruido) que se transfieren al clon.
Etapa 3 — Extracción del embedding de voz Se procesa la muestra limpia a través de un modelo de verificación de hablante para extraer el embedding de voz.
Traza forense: no deja traza directa en el audio de salida, pero el tipo de modelo de embedding influye en qué aspectos de la voz se replican con mayor fidelidad.
Etapa 4 — Generación del audio sintético Se ejecuta el modelo de TTS o de conversión de voz para generar el audio deseado.
Traza forense: esta es la etapa que deja las trazas más significativas: artefactos del vocoder en frecuencias altas, patrones de formantes estáticos, distribución de MFCC anómala, patrones de respiración artificiales.
Etapa 5 — Postprocesado y adaptación al canal El audio generado se postprocesa para simular las condiciones del canal de entrega:
- Si es una llamada telefónica: se aplica el codec AMR-NB (8 kHz, 12,2 kbps) o AMR-WB (16 kHz).
- Si es una nota de voz de WhatsApp: se aplica el codec Opus a la tasa de bits típica de WhatsApp (~32 kbps).
- Se puede añadir ruido de fondo para simular un entorno (oficina, calle, coche).
- Se puede añadir reverberación para simular un espacio acústico.
Traza forense: la doble compresión (codec de generación + codec de canal simulado) crea artefactos detectables. La incongruencia entre el ruido de fondo añadido y las características del audio puede delatar la manipulación.
Etapa 6 — Entrega El audio se envía a la víctima a través del canal elegido: llamada telefónica (con spoofing de número), nota de voz, archivo de audio.
Traza forense: los metadatos de la entrega (hora de la llamada, número de origen, operador, registros del proveedor VoIP utilizado para el spoofing) proporcionan evidencia circunstancial que complementa el análisis acústico.
Comparación de calidad: 2023 vs. 2026
Para ilustrar la velocidad del progreso, consideremos la evolución de la calidad de clonación de voz en los últimos tres años, medida por la métrica estándar MOS (Mean Opinion Score), donde 1.0 es la peor calidad y 5.0 es indistinguible de habla natural:
| Sistema | Año | MOS (calidad naturalidad) | MOS (similitud hablante) |
|---|---|---|---|
| Tortoise TTS | 2022 | 3.8 | 3.5 |
| VALL-E | 2023 | 4.1 | 3.8 |
| XTTS v2 | 2023 | 4.0 | 3.9 |
| VALL-E 2 | 2024 | 4.5 | 4.4 |
| ElevenLabs v2 | 2024 | 4.4 | 4.3 |
| OpenVoice v2 | 2025 | 4.3 | 4.2 |
| ElevenLabs v3 | 2025 | 4.7 | 4.6 |
| Modelos SOTA 2026 | 2026 | 4.8+ | 4.7+ |
Un MOS de 4.5+ significa que la mayoría de oyentes humanos no pueden distinguir el audio sintético del real en una prueba a ciegas. Los mejores modelos de 2026 están en 4.8, prácticamente en el techo de la escala.
Herramientas de clonación de voz: el arsenal del atacante
Herramientas comerciales legítimas
Estas plataformas fueron diseñadas para usos legítimos —producción audiovisual, accesibilidad, localización de contenidos, preservación de voces—, pero sus capacidades las convierten en armas potenciales cuando se utilizan sin escrúpulos.
| Herramienta | Empresa | Tipo | Audio mín. | Idiomas | Precio | Riesgo de abuso |
|---|---|---|---|---|---|---|
| ElevenLabs | ElevenLabs Inc. | TTS + Clonación | 3 seg | 70+ | Gratis (limitado) / desde 5$/mes | Muy alto: plan gratuito disponible, API potente |
| Respeecher | Respeecher Inc. | VC + TTS | 5-10 min | 10+ | Desde 500$/mes (empresas) | Medio: enfocado a producción profesional, verificación |
| Descript Overdub | Descript | TTS personalizado | 10 min | Inglés, español | Desde 24$/mes | Medio: requiere consentimiento verbal grabado |
| Murf AI | Murf Inc. | TTS + Clonación | 30 seg | 20+ | Desde 23$/mes | Alto: bajo coste, fácil acceso |
| Resemble AI | Resemble AI Inc. | TTS + VC + Detección | 3 seg | 25+ | Desde 0,006$/seg | Alto: API flexible, aunque tiene herramientas de detección |
| Fish Audio | Fish Audio | TTS + Clonación | 10 seg | 15+ | Gratis (limitado) / desde 15$/mes | Muy alto: modelos potentes, plan gratuito |
| PlayHT | PlayHT Inc. | TTS + Clonación | 30 seg | 40+ | Desde 31$/mes | Alto: amplia disponibilidad de idiomas |
| Voice.ai | Voice AI Inc. | VC en tiempo real | 30 seg | 10+ | Gratis | Muy alto: conversión en tiempo real gratuita |
| Speechify | Speechify Inc. | TTS + Clonación | 30 seg | 30+ | Desde 139$/año | Medio: enfoque en accesibilidad |
| WellSaid Labs | WellSaid Labs | TTS profesional | 60 min | Inglés | Empresas (personalizado) | Bajo: orientado a grandes empresas |
Herramientas de código abierto
Las herramientas de código abierto son particularmente preocupantes porque eliminan cualquier control de acceso, verificación de identidad o limitación de uso que las plataformas comerciales puedan implementar.
| Herramienta | Repositorio | Tipo | Audio mín. | Calidad | Facilidad de uso | Riesgo |
|---|---|---|---|---|---|---|
| XTTS v2 (Coqui) | GitHub/coqui-ai | TTS zero-shot | 6 seg | Muy alta | Media (Python) | Muy alto |
| Tortoise TTS | GitHub/neonbjb | TTS zero-shot | 10 seg | Alta | Media (Python) | Alto |
| RVC (Retrieval-based VC) | GitHub/RVC-Project | Conversión de voz | 10 min | Muy alta | Alta (GUI) | Muy alto |
| So-VITS-SVC | GitHub/svc-develop-team | Conversión de voz | 30 min | Muy alta | Media | Alto |
| OpenVoice (MyShell) | GitHub/myshell-ai | TTS + VC | 5 seg | Alta | Alta | Muy alto |
| Bark (Suno) | GitHub/suno-ai | TTS generativo | 10 seg | Alta | Alta (Python) | Alto |
| GPT-SoVITS | GitHub/RVC-Boss | TTS few-shot | 5 seg | Muy alta | Media (GUI) | Muy alto |
| VALL-E X (réplica) | GitHub/Plachtaa | TTS zero-shot | 3 seg | Alta | Baja (técnica) | Alto |
| StyleTTS2 | GitHub/yl4579 | TTS expresivo | 10 seg | Muy alta | Baja (Python) | Medio |
| Piper | GitHub/rhasspy | TTS rápido | 30 min (fine-tune) | Media-alta | Alta | Medio |
Accesibilidad preocupante
El modelo RVC (Retrieval-based Voice Conversion) merece mención especial. Originalmente diseñado para la comunidad de creadores de covers musicales con IA, RVC se ha convertido en una de las herramientas de clonación de voz más populares del mundo, con una interfaz gráfica sencilla que permite a cualquier persona sin conocimientos técnicos entrenar un modelo de conversión de voz en aproximadamente 30 minutos. En foros de internet y canales de Telegram, circulan tutoriales paso a paso para utilizar RVC con fines de suplantación de identidad.
GPT-SoVITS combina las capacidades de los modelos GPT con la conversión de voz de So-VITS, logrando clonación de alta calidad con apenas 5 segundos de audio de referencia y una interfaz gráfica accesible.
El mercado negro: Deepfake-as-a-Service
Más allá de las herramientas legítimas y de código abierto, existe un floreciente ecosistema criminal que ofrece servicios de clonación de voz «llave en mano» a través de la dark web y canales de Telegram.
Según un informe de Cyble publicado en 2025, el fenómeno del Deepfake-as-a-Service (DFaaS) explotó en 2025, con un crecimiento del 371% en las menciones de IA en foros de la dark web y más de 23.000 nuevos posts relacionados solo en ese año [13].
Los precios han caído en picado. Según datos de Kaspersky y de investigaciones independientes, los servicios de deepfake que antes costaban entre 300 y 20.000 dólares por minuto de audio ahora son 400 veces más baratos [14]:
| Servicio en mercado negro | Precio estimado (2026) | Tiempo de entrega | Descripción |
|---|---|---|---|
| Kit de identidad sintética (cara + voz + documentos) | ~5 $ | Inmediato | Paquete completo para suplantación de identidad |
| Suscripción a Dark LLM | ~30 $/mes | Inmediato | Acceso a modelos de lenguaje sin restricciones éticas |
| Clon de voz básico (TTS, 1 idioma) | 30-100 $ | 1-2 horas | Voz clonada lista para usar con texto |
| Clon de voz premium (multilingüe, emocional) | 200-500 $ | 24 horas | Incluye variaciones emocionales y múltiples idiomas |
| Deepfake de voz en tiempo real | ~50 $ por sesión | Inmediato | Software configurado para conversión en directo |
| Kit completo de fraude CEO | 500-2.000 $ + comisión | 1 semana | Incluye reconocimiento de la empresa, clon de voz, spoofing telefónico y guion |
| CEO Fraud as a Service (servicio integral) | 2.000-10.000 $ + % del botín | 2-4 semanas | Operación completa: investigación, preparación, ejecución |
| Bypass biométrico de voz (bancos) | 100-300 $ | Variable | Muestra preparada para superar verificación de voz de entidades financieras |
ROI criminal
La asimetría económica es escalofriante. Una inversión de 500 euros en un kit de fraude CEO puede generar transferencias fraudulentas de cientos de miles de euros. El retorno de inversión para el criminal puede superar el 10.000%, lo que explica por qué las redes de crimen organizado están adoptando masivamente estas tecnologías, como advierte Europol en su informe EU-SOCTA 2025 [15].
Ecosistema de distribución y comunidades online
El ecosistema de distribución de herramientas y conocimientos de clonación de voz es vasto y opera a múltiples niveles:
Nivel 1 — Plataformas legítimas: GitHub, Hugging Face, Google Colab. Los modelos se publican con licencias de código abierto y documentación detallada. Los investigadores académicos los publican para avanzar el conocimiento; los desarrolladores los mejoran y los ponen al alcance de todos. No hay intención criminal, pero la accesibilidad facilita el abuso.
Nivel 2 — Comunidades de creadores: Discord servers, subreddits (r/audiogeneration, r/voicecloning), foros de música AI (covers con IA). Aquí los usuarios comparten tutoriales paso a paso, modelos pre-entrenados, y resuelven dudas técnicas. El enfoque es creativo (hacer covers con la voz de artistas, crear voces para juegos), pero el conocimiento es directamente transferible al uso criminal.
Nivel 3 — Canales de Telegram y foros de la dark web: aquí el enfoque es explícitamente criminal. Se venden servicios de clonación de voz, se comparten modelos optimizados para el fraude, se ofrecen tutoriales de cómo ejecutar estafas de emergencia familiar o fraudes del CEO, y se comercializan kits completos de «CEO Fraud as a Service».
Nivel 4 — Mercados de la dark web: plataformas como marketplaces de la dark web donde se venden identidades sintéticas completas (cara + voz + documentos), servicios de llamada en tiempo real con voz clonada, y acceso a modelos de lenguaje sin restricciones éticas (Dark LLMs) que pueden generar guiones de estafa personalizados.
El informe de Cyble sobre Deepfake-as-a-Service documenta que las menciones de IA en foros de la dark web crecieron un 371% desde 2019, con más de 23.000 nuevos posts solo en 2025 [13]. Este crecimiento refleja la rápida adopción de herramientas de IA por parte del crimen organizado.
Cómo obtienen la voz los atacantes
Los cibercriminales son extraordinariamente creativos a la hora de obtener muestras de voz de sus objetivos. Las fuentes más comunes incluyen:
Fuentes públicas (sin interacción con la víctima):
- Vídeos corporativos en LinkedIn: presentaciones, entrevistas, webinars grabados. Los CEO y directivos de grandes empresas suelen tener decenas de minutos de vídeo público.
- Intervenciones en pódcasts y YouTube: una entrevista de 30 minutos proporciona material más que suficiente para un clon de máxima calidad.
- Conferencias y eventos grabados: ponencias en congresos, presentaciones de producto, ruedas de prensa.
- Apariciones en medios de comunicación: entrevistas en televisión, radio o prensa digital con audio.
- TikTok, Instagram Stories, Facebook Live: contenido de vídeo con voz publicado en redes sociales.
Fuentes semi-públicas (requieren acceso limitado):
- Mensajes de voz de WhatsApp: si el atacante forma parte de un grupo de WhatsApp con la víctima, o si obtiene acceso al dispositivo de un contacto, puede extraer audios.
- Buzones de voz: basta con llamar al teléfono del objetivo y grabar el mensaje del contestador automático.
- Grabaciones de reuniones virtuales: plataformas como Zoom, Teams o Meet graban las reuniones, y esas grabaciones pueden filtrarse o ser accesibles para participantes maliciosos.
- Llamadas de atención al cliente: los centros de llamadas graban todas las interacciones, y esas grabaciones pueden ser objetivo de ataques.
Fuentes de ingeniería social (requieren interacción):
- Llamadas pretexto: el atacante llama a la víctima haciéndose pasar por un encuestador, un servicio de atención al cliente o un investigador, manteniendo una conversación de 2-3 minutos que proporciona una muestra de voz de alta calidad.
- Solicitudes de audio disfrazadas: «graba un vídeo de saludo para el cumpleaños de X», «necesitamos que grabes una referencia para un candidato», etc.
Dato clave
El punto crítico es que la voz, a diferencia de una contraseña, no se puede cambiar. Una vez que existe una muestra pública de tu voz —aunque sea de solo 3 segundos—, cualquier persona con acceso a herramientas de clonación puede replicarla indefinidamente. No hay un «botón de reset» para tu voz.
Tipos de estafa con deepfake de voz
Los deepfakes de voz se utilizan en una variedad creciente de esquemas de fraude, cada uno dirigido a un perfil de víctima diferente y con un nivel de sofisticación que varía desde la estafa masiva automatizada hasta la operación dirigida contra una empresa específica.
Antes de detallar cada tipo, es importante entender la taxonomía general del fraude con deepfake de voz:
| Categoría | Objetivo | Nivel técnico | Automatizable | Escala |
|---|---|---|---|---|
| Fraude dirigido (targeted) | Una empresa o persona específica | Alto | No | Individual |
| Fraude semi-dirigido | Un grupo demográfico (p.ej., padres mayores de 60) | Medio | Parcialmente | Decenas a cientos |
| Fraude masivo (spray and pray) | Cualquier persona que conteste | Bajo | Completamente | Miles a millones |
El fraude dirigido es el más sofisticado y el que genera las mayores pérdidas individuales (caso Arup: 25 millones de dólares). El fraude masivo, aunque genera pérdidas individuales menores, es el que afecta a más víctimas y el que suma las mayores pérdidas globales por la escala de operación.
Un aspecto relevante para la práctica forense es que el tipo de fraude determina las características técnicas del deepfake: los fraudes dirigidos utilizan clones de alta calidad (fine-tuning, conversión de voz en tiempo real), mientras que los fraudes masivos utilizan clones de calidad media generados automáticamente (TTS zero-shot). Esto influye en la probabilidad y las técnicas de detección.
1. Fraude del CEO (Business Email Compromise vocal)
Perfil de víctima: empleados de finanzas de medianas y grandes empresas. Complejidad: alta. Pérdidas típicas: 50.000 - 25.000.000 €.
El fraude del CEO con voz clonada es la evolución natural del Business Email Compromise (BEC) —el fraude por email donde alguien suplanta al CEO para solicitar transferencias—. La diferencia es que ahora la solicitud no llega por correo electrónico sino por teléfono, con la voz real del CEO. O más precisamente, con un clon de su voz que resulta indistinguible.
Modus operandi detallado:
Fase de reconocimiento (días o semanas): el atacante investiga exhaustivamente la estructura de la empresa objetivo. Utiliza LinkedIn para identificar al CEO, al director financiero (CFO), al controller financiero y a los empleados con capacidad de autorizar pagos. Estudia la cadena de mando, los procedimientos de aprobación de pagos y los proveedores habituales. Identifica períodos de vulnerabilidad (viajes del CEO, períodos de vacaciones, cierres trimestrales).
Obtención de la muestra de voz: localiza grabaciones públicas del CEO —vídeos corporativos, entrevistas en prensa, webinars, pódcasts—. Si la empresa tiene un canal de YouTube corporativo, puede obtener horas de audio de alta calidad. Con 30 segundos a 5 minutos de audio limpio, el atacante tiene material más que suficiente.
Preparación del clon: utiliza una herramienta de clonación de voz (comercial, de código abierto o contratada en la dark web) para generar un perfil de voz del CEO. Practica con diferentes frases, ajustando parámetros hasta que el clon reproduzca las muletillas, el ritmo de habla y los patrones prosódicos del CEO real. En clones de alta calidad, se incluyen incluso las imperfecciones naturales: carraspeos, «eeh», «mmm», respiraciones.
Configuración del spoofing telefónico: emplea técnicas de spoofing telefónico (suplantación de identificador de llamada) para que la llamada aparezca en el teléfono de la víctima con el número real del CEO. Esto se logra mediante servicios VoIP que permiten configurar cualquier número como ID de llamada saliente, algo que es técnicamente sencillo y cuesta entre 5 y 50 dólares al mes.
Ejecución de la llamada: contacta con el director financiero simulando ser el CEO. El guion típico combina varios elementos de presión:
- Urgencia: «Necesito que hagas una transferencia urgente antes de las 14:00, estoy en una reunión y no puedo hablar mucho.»
- Confidencialidad: «Es una operación confidencial, no lo comentes con nadie del equipo hasta que se cierre.»
- Autoridad: «Ya lo he validado con el departamento legal, solo necesito que ejecutes la transferencia.»
- Familiaridad: usa el nombre de pila, referencias a proyectos reales, menciona eventos recientes de la empresa.
Ejecución de la transferencia: si el empleado cae en la trampa y realiza la transferencia, los fondos se mueven instantáneamente a través de una cascada de cuentas intermediarias —mulas financieras, cuentas en neobancos, exchanges de criptomonedas— hasta llegar a una jurisdicción no cooperante donde la recuperación es prácticamente imposible.
Eliminación de rastro: el atacante elimina las cuentas VoIP utilizadas, las mulas financieras desaparecen, y los fondos se blanquean a través de criptomonedas, mezcladores (mixers) y exchanges descentralizados.
2. Estafa de emergencia familiar (secuestro virtual)
Perfil de víctima: padres, abuelos, familiares de personas jóvenes con presencia activa en redes sociales. Complejidad: media. Pérdidas típicas: 2.500 - 50.000 €.
Esta es posiblemente la variante más cruel de los deepfakes de voz. El criminal clona la voz de un hijo, nieto o sobrino y llama al familiar simulando una emergencia: un secuestro, un accidente de tráfico, una detención policial, un problema médico urgente.
El FBI emitió en 2025 una alerta específica sobre el aumento de casos de «secuestro virtual» donde los estafadores utilizan IA para simular las voces de las presuntas víctimas del secuestro, exigiendo rescates de entre 2.500 y 15.000 dólares [16].
Variantes documentadas:
- Secuestro simulado: «Mamá, me han secuestrado, tienes que pagar 5.000 euros o me van a hacer daño.» El atacante alterna entre la voz clonada del «hijo» llorando y la voz de un supuesto «secuestrador» que da instrucciones de pago.
- Accidente de tráfico: «Papá, he tenido un accidente, estoy herido y necesito dinero urgente para el hospital, no le digas a mamá.»
- Detención policial: «Abuela, me han detenido y necesito dinero para la fianza, no se lo cuentes a mis padres.» Una variante frecuentemente dirigida a personas mayores.
- Emergencia médica en el extranjero: «Estoy en Londres / Berlín / Roma y me han robado todo, necesito que me transfieras dinero para poder volver.»
Según datos de Hiya recopilados en su informe 2026 sobre el estado de las llamadas, el 25% de los consumidores estadounidenses recibieron una llamada con voz generada por IA en los últimos doce meses. De aquellos que fueron objetivo de estas estafas, el 77% perdió dinero [17]. En España, las cifras oficiales aún no se desglosan con esta granularidad, pero las unidades especializadas confirman una tendencia similar.
En marzo de 2026, se documentó el caso de una madre en Missouri (EE.UU.) que transfirió varios miles de dólares después de escuchar los sollozos clonados de su hija al teléfono [18].
3. Suplantación de empleado bancario (vishing avanzado)
Perfil de víctima: clientes de banca, tanto particulares como empresas. Complejidad: media-alta. Pérdidas típicas: 1.000 - 100.000 €.
El vishing (voice phishing) tradicional utiliza llamadas de call centers desde países con mano de obra barata, donde operadores humanos se hacen pasar por empleados bancarios. La versión con deepfake lleva esta estafa a un nivel completamente nuevo: el criminal clona la voz del gestor bancario personal de la víctima.
Cómo obtienen la voz del empleado bancario:
- Grabando una llamada legítima previa con el banco (muchos usuarios graban sus llamadas).
- Llamando al banco como cliente y grabando la interacción con el empleado.
- Obteniendo grabaciones de sistemas de call center comprometidos.
Modus operandi:
El atacante llama a la víctima con una voz que reconoce como la de «su» gestor del banco. Le informa de una «operación sospechosa» en su cuenta y solicita datos de verificación (códigos SMS, contraseñas de un solo uso, datos de tarjeta) que permiten realizar transferencias fraudulentas o compras online.
4. Fraude a proveedores (supplier fraud)
Perfil de víctima: departamentos de compras y cuentas a pagar de empresas. Complejidad: alta. Pérdidas típicas: 20.000 - 500.000 €.
El atacante clona la voz de un proveedor habitual de la empresa y llama para solicitar un cambio en los datos bancarios de facturación: «Hemos cambiado de banco, a partir de ahora las facturas deben pagarse en esta nueva cuenta.» El siguiente pago legítimo del proveedor se desvía a la cuenta del criminal.
5. Estafa romántica con voz (romance scam vocal)
Perfil de víctima: personas en plataformas de citas o redes sociales. Complejidad: media. Pérdidas típicas: 5.000 - 200.000 €.
Una evolución de las clásicas estafas románticas. El criminal crea una identidad ficticia completa (fotos generadas por IA, perfil fabricado) y utiliza clonación de voz para mantener «llamadas telefónicas» con la víctima, reforzando la ilusión de que la persona al otro lado es real. Europol advierte que el uso de clonación de voz y deepfakes de vídeo está impulsando un aumento significativo de las estafas románticas en Europa [15].
6. Suplantación de autoridad (juez, policía, Hacienda)
Perfil de víctima: ciudadanos en general, especialmente personas mayores. Complejidad: baja-media. Pérdidas típicas: 500 - 10.000 €.
El criminal llama haciéndose pasar por un juez, un agente de policía, un inspector de Hacienda o un funcionario de la Seguridad Social. Utiliza una voz autoritaria y convincente (que puede ser clonada de apariciones públicas de funcionarios reales) para presionar a la víctima a realizar un pago inmediato por una supuesta multa, deuda tributaria o procedimiento judicial pendiente.
7. Fraude de ransom con deepfake combinado (voz + ransomware)
Perfil de víctima: empresas con infraestructura TI expuesta. Complejidad: alta. Pérdidas típicas: 50.000 - 5.000.000 €.
Una de las tendencias más preocupantes de 2025-2026 es la combinación de deepfakes de voz con ataques de ransomware. El modus operandi es:
- Los atacantes comprometen la red de la empresa con ransomware, cifrando los datos.
- A continuación, llaman al CEO o al responsable de TI utilizando la voz clonada de un «negociador» que se presenta como asociado del grupo de ransomware (o, en variantes más sofisticadas, utilizando la voz clonada de un empleado de la propia empresa que «informa» del ataque).
- La presión combinada del ransomware real (datos cifrados, operaciones paralizadas) con la llamada telefónica de voz clonada crea un nivel de urgencia y estrés que puede llevar a decisiones precipitadas: pago del rescate sin evaluar alternativas, o transferencias a cuentas fraudulentas que no son las del grupo de ransomware real.
Esta combinación es particularmente efectiva porque la víctima ya está en un estado de crisis por el ransomware, lo que reduce aún más su capacidad de pensamiento crítico.
8. Robocalls masivas con deepfake
Perfil de víctima: cualquier persona con teléfono. Complejidad: baja (pero a escala masiva). Pérdidas típicas por víctima: 100 - 5.000 €.
La automatización permite lanzar miles de llamadas simultáneas con voces clonadas. Algunos grandes minoristas han reportado recibir más de 1.000 llamadas de estafa generadas por IA al día [12]. Estas robocalls pueden utilizar voces de personajes públicos, locutores de noticias o incluso la propia voz de la víctima (obtenida de sus publicaciones en redes sociales) para generar confianza.
8. Manipulación de pruebas y extorsión
Perfil de víctima: personas en procesos judiciales, figuras públicas, empresarios. Complejidad: alta. Pérdidas típicas: variable (chantaje).
Una aplicación especialmente perversa: generar grabaciones falsas donde la víctima «dice» cosas comprometedoras —confesiones fabricadas, amenazas, comentarios racistas, conversaciones íntimas— para utilizarlas como material de extorsión o para desacreditarla ante un tribunal, un empleador o la opinión pública. Este uso tiene implicaciones directas para la informática forense y el derecho procesal, ya que pone en cuestión la fiabilidad de las grabaciones de audio como prueba judicial.
9. Bypass de sistemas de autenticación por voz
Perfil de víctima: clientes de entidades financieras con sistemas de biometría vocal. Complejidad: alta. Pérdidas típicas: variable.
Algunas entidades financieras utilizan el reconocimiento de voz como método de autenticación («diga su número de identificación con su voz para verificar su identidad»). Los deepfakes de voz pueden utilizarse para superar estos sistemas biométricos. Europol advierte específicamente que las falsificaciones generadas por IA pueden eludir la seguridad biométrica de los teléfonos [19].
10. Sextorsión y manipulación emocional
Perfil de víctima: personas con presencia en redes sociales, especialmente jóvenes y figuras públicas. Complejidad: media. Pérdidas típicas: 1.000 - 50.000 € (más daño reputacional incalculable).
El criminal genera grabaciones de audio donde la víctima «dice» cosas comprometedoras: confesiones íntimas, declaraciones racistas, amenazas, contenido sexual explícito. Estas grabaciones fabricadas se utilizan como material de extorsión: «Paga X euros o envío esta grabación a tu jefe / tu pareja / la prensa.»
La crueldad de esta modalidad radica en que la víctima sabe que nunca dijo esas cosas, pero también sabe que una grabación de audio convincente puede arruinar su reputación antes de que pueda demostrar que es falsa. El mero hecho de que la grabación exista —aunque sea fabricada— puede causar un daño irreparable si se difunde.
Variante especialmente peligrosa: la combinación de deepfake de voz con deepfake de vídeo para crear material de «pornografía no consentida» (deep porn) donde la víctima aparece diciendo y haciendo cosas que nunca ocurrieron.
11. Fraude de soporte técnico (tech support scam)
Perfil de víctima: usuarios de tecnología poco experimentados, personas mayores. Complejidad: baja-media. Pérdidas típicas: 200 - 5.000 €.
El atacante clona la voz de un empleado conocido del servicio de soporte técnico (Microsoft, Apple, el proveedor de internet de la víctima) y llama para informar de un «problema de seguridad» en su ordenador o teléfono. Le pide acceso remoto al dispositivo, le solicita datos bancarios para «verificar que no ha habido cargos fraudulentos», o le vende un «servicio de protección» inexistente.
12. Estafa a través de notas de voz fabricadas
Perfil de víctima: usuarios de WhatsApp, Telegram, redes sociales. Complejidad: baja. Pérdidas típicas: 100 - 10.000 €.
Una variante emergente que no utiliza llamadas telefónicas sino notas de voz (voice notes) fabricadas. El atacante:
- Hackea o accede a la cuenta de WhatsApp/Telegram de una persona (mediante SIM swapping, ingeniería social o malware).
- Envía notas de voz con la voz clonada del titular de la cuenta a sus contactos, solicitando dinero: «Oye, tengo un problema, ¿puedes hacerme una transferencia de 500 euros? Luego te lo devuelvo.»
- Los contactos, al escuchar la voz que reconocen como la de su amigo/familiar/colega, son más propensos a cumplir la solicitud que si el mensaje fuera solo texto.
Esta variante es especialmente insidiosa porque las notas de voz de WhatsApp están tan integradas en la comunicación cotidiana en España que los usuarios rara vez cuestionan su autenticidad.
13. Fraude contable y auditoría (manipulación de grabaciones de reuniones)
Perfil de víctima: empresas en proceso de auditoría o litigio. Complejidad: muy alta. Pérdidas típicas: variable (puede afectar a procesos judiciales multimillonarios).
Un uso sofisticado de los deepfakes de voz es la fabricación de «grabaciones de reuniones» donde los directivos de una empresa «discuten» operaciones fraudulentas, acuerdos ilegales o decisiones comprometedoras que nunca tuvieron lugar. Estas grabaciones fabricadas pueden ser utilizadas para:
- Extorsionar a la empresa o a sus directivos.
- Presentar como prueba en litigios corporativos (disputas entre socios, conflictos laborales).
- Manipular procesos de due diligence en operaciones de M&A (fusiones y adquisiciones).
- Desestabilizar la cotización de empresas cotizadas mediante filtraciones a medios o a inversores.
Este tipo de uso requiere alta sofisticación técnica (clonar múltiples voces, generar una conversación natural entre varias personas) y un conocimiento profundo del contexto empresarial, pero su impacto potencial es devastador.
14. Estafa de inversión (investment fraud vocal)
Perfil de víctima: inversores particulares. Complejidad: media. Pérdidas típicas: 5.000 - 500.000 €.
El criminal clona la voz de un asesor financiero conocido, un influencer de finanzas o incluso un directivo de una empresa cotizada para recomendar inversiones fraudulentas por teléfono. «Hola, soy [nombre del asesor], tengo una oportunidad de inversión exclusiva que no puedo comentar por email por motivos regulatorios…»
Casos reales en España y el mundo
Los deepfakes de voz han dejado de ser un riesgo teórico para convertirse en una realidad criminal con víctimas documentadas en todo el mundo. A continuación se detallan los casos más significativos, ordenados cronológicamente y por impacto, incluyendo tanto los casos internacionales de referencia como las alertas y casos específicos en España.
Es importante señalar que la cifra real de incidentes es probablemente muy superior a la documentada públicamente. Muchas empresas no reportan los fraudes para evitar daño reputacional, y muchos particulares no denuncian porque desconocen que la tecnología de deepfake fue utilizada o porque las cantidades perdidas son relativamente pequeñas. Los casos que se conocen son, en su mayoría, aquellos que alcanzaron una magnitud suficiente para atraer la atención mediática o policial.
Caso 1: Arup — 25 millones de dólares en una videoconferencia deepfake (Hong Kong, febrero 2024)
El caso más célebre y el de mayor cuantía documentada. Arup, la firma de ingeniería multinacional británica, fue víctima de una estafa de 200 millones de dólares de Hong Kong (aproximadamente 25 millones de dólares estadounidenses) [20].
Un empleado del departamento financiero de la oficina de Hong Kong de Arup recibió un email supuestamente del director financiero (CFO) de la compañía, solicitando transferencias urgentes. Inicialmente sospechó, pero su desconfianza se disipó cuando fue invitado a una videoconferencia por Zoom donde aparecían varios ejecutivos senior de la empresa que le confirmaron la operación.
Lo que el empleado no sabía era que cada rostro en esa videoconferencia era un deepfake, y cada voz era generada por IA. Toda la reunión era una fabricación digital completa. Convencido de que estaba hablando con sus superiores, el empleado realizó 15 transferencias a cinco cuentas bancarias locales, totalizando los 25 millones de dólares.
El World Economic Forum analizó este caso como ejemplo paradigmático de la nueva era del cibercrimen potenciado por IA [21]. Lo que lo hace especialmente aterrador es que combinó deepfakes de voz y de vídeo simultáneamente, y que el empleado tuvo múltiples oportunidades de verificar (vio las caras, escuchó las voces, participó en una conversación interactiva) y todas las verificaciones fueron superadas por la falsificación.
Caso 2: empresa energética del Reino Unido — 220.000 € con voz del CEO (2024)
Una empresa energética británica perdió 220.000 euros después de que un empleado recibiera una llamada telefónica de alguien que sonaba exactamente como el CEO de la compañía [22]. El falso CEO solicitó una transferencia urgente a un «proveedor» en Hungría. El empleado realizó la transferencia convencido de que hablaba con su jefe. Los fondos fueron transferidos a una cuenta en México antes de que se descubriera el fraude.
Este caso es notable porque el ataque se realizó exclusivamente con deepfake de voz —sin componente de vídeo—, demostrando que una llamada telefónica convincente es suficiente para consumar el fraude.
Caso 3: multinacional en Singapur — 499.000 dólares (marzo 2025)
En marzo de 2025, el director financiero de una empresa multinacional con sede en Singapur participó en una videoconferencia por Zoom donde recibió una solicitud urgente de transferencia de 499.000 dólares [23]. Al igual que en el caso de Arup, todos los participantes en la llamada eran deepfakes de voz y vídeo. La transferencia se ejecutó antes de que se descubriera el engaño.
Caso 4: suplantación del CEO con deepvoice en España
La firma española de ciberseguridad Infordisa documentó un caso de suplantación del CEO con «deepvoice» en España, donde un criminal utilizó voz clonada para contactar con el departamento financiero de una empresa española y solicitar una transferencia urgente [24]. El caso ilustra que estas técnicas, documentadas principalmente en Asia y el mundo anglosajón, ya están operando en el tejido empresarial español.
Caso 5: INCIBE — voz clonada de un familiar en España (2025)
El Instituto Nacional de Ciberseguridad (INCIBE) publicó un caso real en el que una usuaria española recibió una llamada de un número desconocido en la que escuchó la voz de su marido diciendo: «Hola. No te puedo llamar, envíame un mensaje a este número» [4]. La mujer, al reconocer la voz de su esposo, estuvo a punto de seguir las instrucciones. Solo al contactar directamente con su marido por otro canal descubrió que este no había realizado ninguna llamada.
INCIBE confirmó que la voz había sido generada mediante herramientas de inteligencia artificial a partir de muestras de audio disponibles en redes sociales.
Caso 6: alerta de la Policía Nacional española (enero 2025)
La Policía Nacional española emitió en enero de 2025 una alerta específica sobre una nueva modalidad de estafa que utiliza inteligencia artificial para clonar voces [5]. El comunicado advertía que los estafadores estaban utilizando muestras de voz obtenidas de redes sociales y mensajes de voz para generar llamadas fraudulentas que simulaban emergencias familiares.
La Policía recomendó establecer una palabra clave o pregunta de seguridad entre familiares y amigos como mecanismo de verificación, una medida que antes del deepfake vocal habría parecido innecesaria.
Caso 7: WeTransfer / dark web — venta de kits de fraude CEO (2025)
Investigadores de ciberseguridad de Cyble documentaron en 2025 la proliferación de servicios de «CEO Fraud as a Service» en canales de Telegram y marketplaces de la dark web [13]. Estos servicios ofrecen paquetes completos que incluyen:
- Investigación de la empresa objetivo (estructura organizativa, directivos, proveedores).
- Clonación de la voz del CEO a partir de material público.
- Servicio de spoofing telefónico configurado.
- Guion personalizado para la llamada.
- Asesoramiento sobre cómo lavar los fondos obtenidos.
Los precios oscilan entre 500 y 10.000 euros, más una comisión del 10-30% sobre el botín obtenido. Algunos servicios ofrecen «garantía de satisfacción»: si la primera llamada no tiene éxito, realizan hasta tres intentos adicionales sin coste extra.
La existencia de estos servicios «llave en mano» es especialmente preocupante porque elimina la barrera técnica: un criminal sin conocimientos de IA o telecomunicaciones puede ejecutar un fraude sofisticado simplemente contratando el servicio.
Caso 8: estafa de secuestro virtual con voz clonada (Arizona, EE.UU., 2023-2025)
Uno de los primeros casos ampliamente documentados de secuestro virtual con deepfake de voz ocurrió en Arizona en 2023, cuando Jennifer DeStefano recibió una llamada en la que escuchó la voz de su hija llorando, seguida de la voz de un «secuestrador» que exigía un rescate. DeStefano reconoció inequívocamente la voz de su hija. Solo cuando pudo verificar que su hija estaba a salvo descubrió que la llamada era una estafa con voz clonada.
Este caso se convirtió en un catalizador para la concienciación pública en Estados Unidos, y desde entonces se han documentado cientos de casos similares. El FBI incluyó los deepfakes de voz en su lista de amenazas emergentes de cibercrimen.
Caso 8: fraude bancario con deepfake de voz en Emiratos Árabes (2023)
Un banco de Emiratos Árabes Unidos fue estafado por 35 millones de dólares cuando un empleado recibió una llamada de alguien que sonaba como un director de empresa cliente del banco, solicitando una serie de transferencias para una operación de adquisición. La investigación posterior reveló que la voz del «director» había sido clonada.
Caso 9: American Bar Association — advertencia al sector legal (septiembre 2025)
La American Bar Association (ABA), la asociación profesional de abogados más influyente de Estados Unidos, publicó en septiembre de 2025 un artículo exhaustivo titulado The Rise of the AI-Cloned Voice Scam, alertando al sector legal sobre los riesgos de los deepfakes de voz tanto para los abogados como profesionales (riesgo de suplantación en comunicaciones con clientes) como para el sistema judicial en su conjunto (riesgo de pruebas fabricadas) [45].
El artículo de la ABA destacó que los abogados tienen una responsabilidad ética de informar a sus clientes sobre la existencia de esta tecnología, especialmente en casos donde las grabaciones de audio son prueba relevante, y de solicitar análisis periciales cuando la autenticidad de una grabación es cuestionada.
Caso 10: fraude electoral con deepfake de voz (New Hampshire, enero 2024)
En las primarias de New Hampshire de enero de 2024, una robocall masiva utilizó una voz clonada del presidente Joe Biden para disuadir a los votantes demócratas de participar en las primarias. La llamada, que utilizaba la voz sintetizada de Biden diciendo «Save your vote for November», fue rastreada hasta un consultor político que fue sancionado por la FCC con una multa de 6 millones de dólares. Este caso demostró el potencial de los deepfakes de voz para la manipulación política.
Caso 10: CaixaBank alerta sobre clonación de voz (2025)
CaixaBank publicó una guía de ciberseguridad para sus clientes alertando específicamente sobre el riesgo de la clonación de voz por IA, explicando cómo verificar la identidad del interlocutor y recomendando no confiar en llamadas entrantes que soliciten datos sensibles, incluso si la voz parece familiar [25].
Caso 11: Europol EU-SOCTA 2025 — alerta sistémica
El informe EU-SOCTA 2025 de Europol constituyó la primera evaluación institucional europea que sitúa los deepfakes de voz como una amenaza sistémica para la seguridad del continente [15]. Catherine De Bolle, directora ejecutiva de Europol, describió la amenaza como una que evoluciona «a una velocidad sin precedentes», donde el crimen organizado está «desestabilizando las sociedades europeas, incrustándose en el entorno online y armamentizando la inteligencia artificial».
Europol señala que el 49% de las empresas en países seleccionados ya han experimentado fraude con deepfakes de audio y vídeo, y que los intentos de vishing (phishing por voz) se triplicaron en los Países Bajos en 2024.
Caso 12: estafas masivas a través de robocalls con IA (EE.UU., 2025-2026)
Las grandes cadenas minoristas de Estados Unidos reportaron en 2025-2026 un incremento masivo de llamadas de estafa generadas por IA. Algunos retailers indicaron recibir más de 1.000 llamadas de estafa por día generadas por sistemas automatizados que utilizaban voces clonadas de empleados de servicio al cliente, agentes bancarios o incluso familiares de empleados [12].
Estas robocalls utilizan un pipeline completamente automatizado:
- Un agente de IA (basado en un LLM) genera el guion de la conversación.
- Un sistema de TTS con voz clonada sintetiza el audio en tiempo real.
- Un servicio VoIP automatizado realiza las llamadas con spoofing de número.
- Si la víctima muestra interés o preocupación, el sistema de IA adapta el discurso para maximizar la probabilidad de éxito.
Este nivel de automatización permite escalar las estafas a un volumen sin precedentes: un solo criminal puede lanzar simultáneamente miles de estafas personalizadas sin intervención humana.
Caso 13: fraude inmobiliario con deepfake de voz (España, 2025)
Aunque los detalles específicos son limitados por la confidencialidad de las investigaciones en curso, las unidades de ciberdelincuencia españolas han reportado casos de fraude inmobiliario donde la voz clonada de un propietario se utilizó para autorizar telefónicamente la venta o el alquiler de una propiedad a un comprador/inquilino que realizó una transferencia de señal o depósito a una cuenta controlada por el criminal.
Este tipo de fraude es especialmente efectivo porque las operaciones inmobiliarias en España implican cantidades significativas de dinero, los plazos son ajustados, y la confirmación telefónica es una práctica habitual entre notarios, agentes inmobiliarios y compradores.
Caso 14: estafas bancarias con voz clonada de gestores (Europa, 2024-2026)
Múltiples entidades financieras europeas han reportado un incremento significativo de estafas de vishing donde los atacantes clonan la voz de gestores bancarios específicos. El ataque es especialmente efectivo cuando:
- La víctima tiene un gestor personal asignado cuya voz reconoce.
- El atacante ha obtenido la voz del gestor de una grabación previa de llamada al banco (muchos usuarios graban sus interacciones con el servicio de atención al cliente).
- La llamada incluye datos reales de la víctima (nombre, DNI parcial, últimos movimientos) obtenidos de una brecha de datos previa.
En los Países Bajos, los intentos de vishing se triplicaron en 2024 según datos de Europol [15]. Las entidades financieras neerlandesas y británicas fueron las primeras en implementar soluciones de detección de deepfakes en tiempo real en sus centros de atención al cliente.
Caso 15: Parlamento Europeo — informe sobre estafas telefónicas con IA generativa (2025)
El Parlamento Europeo publicó en 2025 un informe específico sobre estafas telefónicas en la era de la IA generativa, señalando que los deepfakes de voz representan «una de las amenazas más insidiosas para la seguridad de los ciudadanos europeos» y recomendando el desarrollo urgente de herramientas de detección y marcos regulatorios específicos [26].
Caso 16: WeLiveSecurity / ESET — estafas con clonación de voz en Latinoamérica y España (2025)
La firma de ciberseguridad ESET, a través de su portal WeLiveSecurity, documentó el crecimiento de estafas con clonación de voz en el ámbito hispanohablante, incluyendo España, México, Argentina y Colombia [43]. El informe destaca que la barrera del idioma que anteriormente protegía parcialmente a los hablantes de español (la mayoría de herramientas estaban optimizadas para el inglés) ha desaparecido: los modelos multilingües actuales (ElevenLabs, XTTS, Fish Audio) generan español con calidad nativa, incluyendo variantes dialectales (castellano peninsular, español mexicano, etc.).
Tipología de las víctimas y factores de riesgo
No todas las personas ni todas las empresas tienen el mismo nivel de exposición al riesgo de deepfake de voz. Los factores que incrementan la vulnerabilidad incluyen:
Para empresas:
- Tamaño de la empresa: las empresas medianas (50-500 empleados) son el objetivo preferido porque tienen suficiente dinero para hacer atractivo el fraude, pero a menudo no tienen los protocolos de seguridad de las grandes corporaciones.
- Sector: banca, energía, tecnología, farmacia y consultoría son los sectores más atacados, según Europol [15].
- Internacionalización: empresas con operaciones internacionales son más vulnerables porque las transferencias internacionales son más difíciles de revertir y la verificación intercultural es más compleja.
- Exposición mediática del CEO: cuantos más vídeos y audios públicos del CEO existan, más fácil es clonar su voz.
- Cultura de autoridad: empresas con estructuras jerárquicas rígidas donde los empleados no cuestionan las instrucciones de los superiores.
Para particulares:
- Edad: las personas mayores de 65 años y los adolescentes son los grupos más vulnerables, aunque por razones diferentes (los mayores por menor familiaridad con la IA; los adolescentes por mayor exposición de su voz en redes sociales).
- Actividad en redes sociales: a mayor presencia vocal en plataformas públicas, mayor riesgo de que la voz sea clonada.
- Situación emocional: personas que están pasando por situaciones de estrés (separaciones, enfermedades, problemas económicos) son más vulnerables a las estafas que explotan la presión emocional.
- Historial de estafas previas: paradójicamente, las personas que ya han sido víctimas de estafas previas son objetivo preferente de los criminales, que comparten listas de «víctimas exitosas» en foros de la dark web.
El impacto económico global
El impacto económico de los deepfakes de voz ya no puede considerarse marginal. Las cifras globales revelan una amenaza de escala sistémica:
- Pérdidas directas por fraude: según datos compilados por múltiples fuentes, las pérdidas globales por fraude con deepfakes (voz y vídeo combinados) superaron los 200 millones de dólares solo en el primer trimestre de 2025 [23].
- Proyección para 2026: las pérdidas proyectadas por fraude con deepfakes podrían alcanzar los 16.000 millones de dólares a finales de 2026 [18].
- Coste por incidente: el coste medio de un fraude del CEO exitoso en Europa es de 115.000 euros según datos de Europol/FBI IC3 [15], aunque los casos más graves alcanzan las decenas de millones.
- Coste de no prevenir: más allá de las pérdidas directas, las empresas víctimas enfrentan costes reputacionales, legales (litigios con bancos, aseguradoras, clientes), regulatorios (posibles sanciones por falta de medidas de seguridad adecuadas) y operativos (disrupción del negocio durante la investigación).
Análisis de tendencias: por qué 2026 es diferente
Varios factores convergen en 2026 para hacer de este el año en que los deepfakes de voz se convierten en una amenaza masiva:
1. Convergencia tecnológica: la combinación de modelos de lenguaje de gran escala (GPT-4, Claude, Gemini) con sistemas de clonación de voz en tiempo real permite crear agentes de estafa autónomos que pueden mantener conversaciones complejas, adaptar su discurso y consumar fraudes sin intervención humana.
2. Democratización de las herramientas: en 2023, la clonación de voz de alta calidad requería conocimientos técnicos. En 2026, cualquier persona con un navegador web puede clonar una voz en ElevenLabs en menos de 5 minutos.
3. Reducción de costes: el coste de crear un deepfake de voz ha caído 400 veces en tres años (de miles de dólares a unos pocos dólares). Esto hace económicamente viable lanzar miles de estafas simultáneas con rendimientos esperados positivos incluso con tasas de éxito bajas.
4. Multilingualismo: los modelos de 2026 generan español con calidad nativa, eliminando la barrera lingüística que anteriormente protegía parcialmente al mundo hispanohablante. El español, con 600 millones de hablantes, se ha convertido en un mercado objetivo prioritario para los estafadores.
5. Concienciación insuficiente: a pesar de los titulares mediáticos, la mayoría de la población (y de las empresas) no ha implementado medidas de protección. La brecha entre la sofisticación de los ataques y la preparación de las víctimas potenciales sigue creciendo.
6. Marco regulatorio en transición: el AI Act europeo no entrará plenamente en vigor hasta agosto de 2026, y la legislación penal española no tiene tipos específicos para deepfakes. Los atacantes están aprovechando esta ventana de vacío regulatorio.
Magnitud del problema en cifras
| Indicador | Dato | Fuente |
|---|---|---|
| Incremento fraude deepfake voz (2024) | +1.300% | Pindrop Voice Intelligence Report 2025 [1] |
| Crecimiento deepfakes globales (2023→2025) | de 500K a 8M | DeepStrike [3] |
| Pérdidas globales Q1 2025 | >200 millones USD | ScamWatch HQ [23] |
| Empresas afectadas por deepfake audio/vídeo | 49% | Europol EU-SOCTA 2025 [15] |
| Consumidores EE.UU. que recibieron voz IA | 25% | Hiya State of the Call 2026 [17] |
| Víctimas que perdieron dinero (de los contactados) | 77% | Hiya State of the Call 2026 [17] |
| Mayor pérdida individual documentada | 25 millones USD | Arup / Hong Kong Police [20] |
| Pérdidas proyectadas por deepfake en 2026 | 16.000 millones USD | Moneywise [18] |
| Ataques de ingeniería social por empresa/año | ~700 | Javadex [27] |
| Aumento estafas IA vs. fraude tradicional | 1.210% vs. 195% | Javadex [27] |
Detección forense de deepfakes de voz
La detección de deepfakes de voz es un campo de investigación en rápida evolución dentro de la informática forense y la inteligencia artificial. Aunque la carrera entre generación y detección favorece actualmente a los atacantes, las técnicas forenses disponibles en 2026 permiten identificar audio sintético con tasas de precisión superiores al 98% en condiciones controladas.
La detección opera en dos niveles fundamentalmente diferentes:
- Detección perceptiva humana: lo que un oyente entrenado puede percibir directamente al escuchar el audio con atención. Es limitada pero importante como primera línea de defensa.
- Detección instrumental/computacional: lo que las herramientas de análisis y los modelos de IA pueden identificar. Es significativamente más potente que la detección humana, pero requiere acceso al archivo de audio y herramientas especializadas.
Ambos niveles son complementarios y necesarios. El perito forense combina su experiencia perceptiva con las herramientas instrumentales para alcanzar el máximo nivel de fiabilidad en sus conclusiones.
Fundamentos del análisis forense de audio
El análisis forense de audio se basa en el principio de que todo proceso de generación o manipulación deja trazas. Aunque estas trazas pueden ser imperceptibles para el oído humano, son detectables mediante análisis instrumental y computacional. Las principales dimensiones de análisis son:
1. Análisis espectral
El espectrograma de una señal de audio es una representación visual que muestra la distribución de energía en función del tiempo (eje horizontal) y la frecuencia (eje vertical). Es la herramienta fundamental del análisis forense de audio.
En un espectrograma de voz humana natural, se observan:
- Formantes claramente definidos: bandas horizontales de energía que corresponden a las resonancias del tracto vocal.
- Transiciones suaves: los formantes cambian gradualmente entre fonemas, reflejando el movimiento continuo de la lengua, los labios y la mandíbula.
- Armónicos regulares: líneas horizontales uniformemente espaciadas que corresponden a los múltiplos de la frecuencia fundamental.
- Ruido aspirado en fricativas: distribución de energía de banda ancha en sonidos como /s/, /f/, /θ/.
- Variabilidad natural: micro-fluctuaciones en frecuencia y amplitud que reflejan la imprecisión inherente del sistema fonatorio humano.
En un espectrograma de voz sintética (deepfake), un analista forense puede detectar:
- Formantes excesivamente estáticos: transiciones abruptas en lugar de graduales.
- Armónicos artificialmente perfectos: distribución demasiado regular, sin la variabilidad natural.
- Artifacts de codec neuronal: patrones repetitivos de baja energía en frecuencias altas (típicamente >8 kHz) que delatan el proceso de codificación/decodificación del codec neuronal.
- Discontinuidades en la envolvente espectral: saltos bruscos en la distribución de energía que no corresponden a ningún gesto articulatorio natural.
- Ausencia de ruido microfónico natural: las grabaciones reales capturadas por un micrófono presentan un patrón de ruido de fondo específico del dispositivo y del entorno. Las generaciones sintéticas pueden carecer de este ruido o presentar un ruido artificial uniforme.
2. Análisis de formantes
Los formantes son las frecuencias de resonancia del tracto vocal humano. Cada persona tiene un tracto vocal con dimensiones únicas (longitud, forma de la cavidad oral, posición de la laringe) que produce un patrón de formantes característico, funcionando como una «huella vocal».
Los cinco primeros formantes (F1 a F5) son los más informativos:
| Formante | Rango típico (Hz) | Qué refleja | Relevancia forense |
|---|---|---|---|
| F1 | 200-900 | Apertura mandibular | Alta: los modelos de IA tienden a producir F1 con menos variabilidad |
| F2 | 900-2.500 | Posición anteroposterior de la lengua | Alta: transiciones F2 son difíciles de replicar con naturalidad |
| F3 | 2.000-3.500 | Forma del tracto vocal anterior | Media-alta: F3 estático es indicador de síntesis |
| F4 | 3.000-4.500 | Longitud del tracto vocal | Media: relevante para comparación con voz de referencia |
| F5 | 3.500-5.000+ | Características individuales | Media: a menudo fuera del ancho de banda telefónico |
La investigación reciente publicada en Forensic deepfake audio detection using segmental speech features (2025) demostró que las características segmentales como los puntos medios de los formantes vocálicos (MF) superan a las características globales (como MFCC o LTFD) en la detección de habla sintética [28].
Un perito forense realiza el análisis de formantes extrayendo los valores de F1-F5 a lo largo del tiempo y comparándolos con:
- Los rangos esperados para el hablante objetivo (si se dispone de muestras de referencia verificadas).
- Los patrones esperados para habla natural en el idioma y dialecto relevante.
- Los patrones típicos de los diferentes sistemas de generación de voz (cada modelo tiene una «firma» de formantes que lo delata).
3. Coeficientes cepstrales de frecuencia mel (MFCC)
Los MFCC (Mel-Frequency Cepstral Coefficients) son una representación compacta del espectro de audio que captura las características perceptivamente relevantes de la voz. Son, con diferencia, la característica más utilizada en los sistemas automáticos de detección de deepfakes de audio.
Un vector MFCC típico tiene 13 a 40 coeficientes por trama de audio (cada 10-25 milisegundos), a los que se añaden las derivadas primera (delta) y segunda (delta-delta) para capturar la dinámica temporal. La combinación de MFCC con contraste espectral ha logrado precisiones del 98,52% en la detección de deepfakes de audio [29].
Los MFCC son efectivos porque capturan la envolvente espectral del habla de una manera que es sensible a las diferencias entre generación natural y sintética: los vocoders neuronales que convierten espectrogramas mel en audio tienden a producir distribuciones de MFCC sutilmente diferentes a las del habla natural, especialmente en los coeficientes de orden alto (que reflejan detalles finos del espectro).
4. Otros coeficientes cepstrales
Además de los MFCC, la investigación forense utiliza otros tipos de coeficientes cepstrales:
| Coeficientes | Precisión en detección | Ventaja |
|---|---|---|
| LFCC (Linear Frequency CC) | 98,05% (EER 4,80%) | Superior a MFCC en general [30] |
| MFCC | 97,42% | Estándar de la industria, amplio soporte |
| CQCC (Constant Q CC) | 96,8% | Buena resolución en frecuencias bajas |
| MFCC + contraste espectral | 98,52% | La mejor combinación publicada [29] |
5. Análisis de frecuencia fundamental (F0) y prosodia
La frecuencia fundamental (F0) es la frecuencia de vibración de las cuerdas vocales, y varía constantemente durante el habla (es lo que percibimos como entonación). El patrón de F0 a lo largo del tiempo se denomina contorno de F0 o contorno de pitch.
Los deepfakes de voz a menudo presentan anomalías en el contorno de F0:
- F0 excesivamente suave: los modelos de síntesis tienden a «suavizar» las variaciones de F0, produciendo una entonación menos variable que la del habla natural.
- Micro-variaciones de F0 artificiales: a la inversa, algunos modelos generan micro-perturbaciones de F0 que intentan imitar el jitter natural pero que presentan distribuciones estadísticas diferentes.
- Discontinuidades de F0 en bordes de fonema: saltos bruscos en la frecuencia fundamental donde el modelo cambia entre segmentos.
El jitter (variación ciclo a ciclo de la frecuencia fundamental) y el shimmer (variación ciclo a ciclo de la amplitud) son métricas de la calidad vocal que también difieren entre voz natural y sintética. La voz humana presenta un jitter típico del 0,5-1,5% y un shimmer del 3-7%; los deepfakes pueden mostrar valores fuera de estos rangos, ya sea por exceso (imitación torpe de variabilidad) o por defecto (síntesis demasiado «limpia»).
6. Análisis de patrones de respiración
Los patrones de respiración son una de las señales más fiables para detectar deepfakes de voz. Los seres humanos respiramos de forma natural durante el habla, con inhalaciones que ocurren en momentos sintácticamente coherentes (al inicio de frases, después de pausas, entre cláusulas) y que presentan características acústicas específicas (ruido aspirado de banda ancha, duración típica de 0,3-0,8 segundos).
Los modelos de síntesis de voz tienen dificultades para replicar estos patrones correctamente:
- Ausencia de respiración: algunos modelos no generan respiraciones en absoluto.
- Respiración sintética estereotipada: cuando la generan, tiende a ser una respiración «genérica» sin la variabilidad natural.
- Timing incorrecto: las inhalaciones aparecen en momentos que no corresponden a pausas respiratorias naturales.
- Proporción habla/respiración anómala: una persona habla típicamente durante 2-5 segundos entre respiraciones; los deepfakes pueden mantener periodos de habla más largos sin pausas respiratorias.
7. Análisis de microsilencios y pausas
El habla humana contiene microsilencios (pausas de 20-200 milisegundos) entre fonemas, palabras y frases que tienen una distribución temporal característica. Un analista forense examina:
- La distribución estadística de las duraciones de pausa.
- La ubicación de las pausas en relación con la estructura sintáctica y prosódica.
- La presencia de pausas llenas («eeh», «mmm», «ah»): extremadamente difíciles de replicar con naturalidad para los modelos de IA.
- Los clics linguales y ruidos de deglución: sonidos involuntarios del tracto vocal que rara vez aparecen en audio sintético.
8. Artefactos de compresión y codec
Cada formato de audio y cada codec deja una huella específica en la señal. Un análisis forense examina:
- Doble compresión: si el audio se ha generado (compresión por el codec neuronal), exportado a un formato (compresión 1) y luego transmitido por la red telefónica (compresión 2), las capas de compresión superpuestas crean artefactos detectables.
- Inconsistencia codec-entorno: una grabación que supuestamente se realizó en una llamada móvil GSM pero cuyo espectro no muestra las características del codec AMR-NB/WB es sospechosa.
- Artefactos de vocoder: los vocoders neuronales (HiFi-GAN, WaveGlow, etc.) dejan firmas espectrales específicas en las frecuencias altas que un analista experimentado puede identificar.
9. Análisis de Long-Term Average Spectrum (LTAS)
El LTAS (espectro medio a largo plazo) es la media del espectro de potencia de una grabación de audio a lo largo de toda su duración. Es una representación global que captura la distribución general de energía en las diferentes bandas de frecuencia del habla.
El LTAS es particularmente útil porque:
- Es robusto frente al contenido verbal: al promediar muchos segmentos de habla, las diferencias de contenido (diferentes palabras, diferentes fonemas) se neutralizan, y lo que queda es la «firma espectral» del hablante y del canal.
- Captura la firma del vocoder: los vocoders neuronales tienden a producir un LTAS con características específicas: roll-off más pronunciado en frecuencias altas, distribución de energía ligeramente diferente en la banda de 2-4 kHz, y un piso de ruido con estructura diferente al del ruido microfónico natural.
- Permite comparación con referencia: si se dispone de grabaciones verificadas del hablante objetivo, la comparación de LTAS puede revelar discrepancias que, aunque no sean visibles en el espectrograma instantáneo, son evidentes en la media a largo plazo.
Un analista forense genera el LTAS tanto de la muestra cuestionada como de las muestras de referencia, y compara:
- La pendiente general del espectro (spectral tilt).
- La posición y amplitud de los picos formánticos medios.
- El nivel de energía en las bandas de frecuencia alta (>5 kHz).
- La estructura del piso de ruido.
10. Análisis de entorno acústico (Environmental Noise Analysis)
El análisis del entorno acústico de la grabación proporciona información complementaria valiosa:
Ruido de fondo: una grabación genuina de una llamada telefónica tendrá un ruido de fondo consistente con el entorno declarado (oficina, calle, coche). Un deepfake puede tener:
- Ruido de fondo ausente (silencio artificial).
- Ruido de fondo añadido artificialmente que presenta uniformidad excesiva (el ruido real varía constantemente).
- Inconsistencias entre el ruido de fondo y las características acústicas de la voz (p.ej., la voz tiene reverberación de habitación grande pero el ruido sugiere un espacio pequeño).
Reverberación: el tiempo de reverberación (RT60) y el patrón de reflexiones tempranas son específicos del espacio donde se grabó el audio. Si el audio deepfake se postprocesó para añadir reverberación artificial, esta puede ser inconsistente con la reverberación natural que habría producido el entorno declarado.
Ruido de red eléctrica (ENF): en grabaciones de larga duración, el ruido de la red eléctrica (50 Hz en Europa, 60 Hz en América) puede servir como una marca temporal que permite verificar cuándo se realizó la grabación. Un audio generado sintéticamente no tendrá esta señal a menos que se añada intencionalmente.
11. Análisis de la cadena de códecs
Cada vez que un audio se codifica y decodifica por un codec, deja artefactos específicos. Un análisis forense examina la «historia» de codecs por los que ha pasado el audio:
| Codec | Tasa de muestreo | Bitrate típico | Artefactos característicos | Uso |
|---|---|---|---|---|
| AMR-NB | 8 kHz | 4,75-12,2 kbps | Corte abrupto a 3,4 kHz, cuantización de LSP | Llamadas GSM 2G/3G |
| AMR-WB | 16 kHz | 6,6-23,85 kbps | Corte a 7 kHz, mejor resolución temporal | Llamadas HD Voice |
| EVS | 16-48 kHz | 5,9-128 kbps | Artefactos mínimos, difícil distinguir de PCM | VoLTE |
| Opus | 8-48 kHz | 6-510 kbps | Variable según bitrate, SILK/CELT dual mode | WhatsApp, Telegram, Discord |
| AAC-LC | 8-96 kHz | 16-320 kbps | Pérdida en alta frecuencia, pre-echo | Grabaciones iOS |
| MP3 | 8-48 kHz | 32-320 kbps | Joint stereo artifacts, pre-echo | Almacenamiento general |
Si un audio deepfake se genera a 48 kHz y luego se transmite por una llamada GSM (codec AMR-NB a 8 kHz), el resultado pasará por al menos tres procesos de codificación: (1) vocoder neuronal → audio PCM, (2) codec Opus del software VoIP → transmisión, (3) codec AMR-NB de la red GSM → recepción. Cada capa añade artefactos de compresión que se superponen, y la interacción entre estos artefactos puede ser detectada por un analista forense experimentado.
La doble compresión (cuando un audio comprimido se vuelve a comprimir con el mismo o diferente codec) produce artefactos específicos detectables, similares a los que se utilizan en la detección de manipulación de imágenes JPEG (análisis de la tabla de cuantización).
12. Relación armónico-ruido (HNR)
La HNR (Harmonic-to-Noise Ratio) mide la proporción entre los componentes armónicos (periódicos) y el ruido (aperiódico) en la señal de voz. Los valores típicos para voz humana sana son de 20-40 dB en vocales sostenidas. Los deepfakes pueden presentar:
- HNR anormalmente alto (voz «demasiado limpia»): el vocoder genera armónicos muy puros con poco ruido.
- HNR fluctuante de forma antinatural: cambios bruscos en la relación armónico-ruido que no corresponden a gestos articulatorios reales.
Herramientas de detección automatizada
Más allá del análisis manual por un perito experto, existen herramientas automatizadas de detección de deepfakes de audio que utilizan modelos de IA entrenados específicamente para distinguir voz real de sintética.
| Herramienta | Desarrollador | Precisión reportada | Tiempo real | Uso principal |
|---|---|---|---|---|
| Pindrop Pulse | Pindrop | 99% (motores conocidos), >90% (desconocidos) | Sí (2 seg de audio) | Contact centers financieros |
| Resemble Detect | Resemble AI | >98% | Sí | Verificación de contenido |
| Hiya AI Call Screening | Hiya | ~95% | Sí | Filtrado de llamadas para consumidores |
| Microsoft VALL-E Detector | Microsoft Research | 97% (en benchmark) | No | Investigación |
| Modelos Wav2Vec + classifier | Académico (varios) | 96-98% | No | Investigación forense |
| AASIST (Anti-Spoofing) | Académico (Corea) | 97,8% | No | Benchmark ASVspoof |
| Audio Anti-Spoofing (Hugging Face) | Comunidad | 94-97% | No | Código abierto |
Pindrop Pulse: estado del arte en detección
La solución Pindrop Pulse merece mención especial. Diseñada para centros de atención al cliente del sector financiero, alcanza una tasa de detección del 99% para motores de deepfake conocidos y superior al 90% para motores nuevos o desconocidos, con una tasa de falsos positivos inferior al 1%, utilizando tan solo 2 segundos de audio neto de habla [1]. Emplea detección de «vivacidad» (liveness detection) identificando patrones que son naturales para los humanos pero difíciles de replicar para las máquinas: distorsiones de frecuencia específicas, varianza vocal, pausas antinaturales y anomalías temporales.
ASVspoof: la competición de referencia
El ASVspoof Challenge es la competición internacional de referencia en detección de audio falsificado (spoofed) y deepfakes. Organizada desde 2015, su quinta edición (ASVspoof 5, 2024) recibió participaciones de 53 equipos de investigación de todo el mundo [31].
Hallazgos clave de ASVspoof 5:
- Más del 60% de los participantes utilizaron modelos de aprendizaje auto-supervisado (SSL) como Wav2Vec 2.0, HuBERT o WavLM como extractores de características, confirmando su superioridad frente a características manuales.
- Los mejores sistemas alcanzaron tasas de error (EER) inferiores al 3% en condiciones controladas.
- Sin embargo, el rendimiento se degrada significativamente bajo ataques adversariales (deepfakes diseñados específicamente para evadir la detección) y cuando el audio se transmite a través de codecs de compresión neural.
- La detección en condiciones de «mundo real» (audio comprimido, ruido de fondo, canal telefónico) sigue siendo significativamente más difícil que en condiciones de laboratorio.
Modelos de aprendizaje auto-supervisado (SSL) para detección
Los modelos de aprendizaje auto-supervisado (Self-Supervised Learning, SSL) han revolucionado la detección de deepfakes de audio en los últimos años, convirtiéndose en el enfoque dominante en la comunidad de investigación. Más del 60% de los participantes en el ASVspoof 5 utilizaron modelos SSL como extractores de características [31].
¿Qué es el aprendizaje auto-supervisado?
A diferencia del aprendizaje supervisado (donde el modelo se entrena con datos etiquetados: «esto es real», «esto es fake»), los modelos SSL se preentrenan con enormes cantidades de datos de audio sin etiquetar, aprendiendo representaciones generales del habla. Estas representaciones pueden luego utilizarse como características de entrada para un clasificador que distingue audio real de sintético.
Los modelos SSL más utilizados en detección de deepfakes incluyen:
| Modelo | Desarrollador | Preentrenamiento | Dimensión embedding | Rendimiento en detección |
|---|---|---|---|---|
| Wav2Vec 2.0 | Meta/Facebook | 960h Librispeech | 768/1024 | Excelente |
| HuBERT | Meta/Facebook | 960h Librispeech | 768/1024 | Excelente |
| WavLM | Microsoft | 94.000h audio mixto | 768/1024 | Superior (estado del arte) |
| Whisper | OpenAI | 680.000h audio multilingüe | 512-1280 | Muy bueno |
| XLS-R | Meta | 436.000h, 128 idiomas | 1024 | Bueno (especialmente multilingüe) |
¿Por qué funcionan tan bien para detectar deepfakes?
Los modelos SSL aprenden representaciones profundas del habla natural durante su preentrenamiento. Al haber sido expuestos a enormes cantidades de habla humana real, desarrollan una «intuición» estadística sobre cómo «debería» sonar el habla natural. Cuando se les presenta habla sintética, las representaciones que extraen son sutilmente diferentes a las del habla natural, y un clasificador entrenado sobre estas representaciones puede identificar estas diferencias.
La ventaja de este enfoque es la generalización: como las representaciones SSL capturan propiedades generales del habla (no artefactos de un modelo de síntesis específico), los detectores basados en SSL tienden a funcionar razonablemente bien incluso contra motores de generación que no estaban presentes en los datos de entrenamiento del detector.
Pipeline típico de detección SSL:
- Audio de entrada → segmentación en tramas de 20-25 ms.
- Procesamiento por modelo SSL (Wav2Vec 2.0, WavLM) → secuencia de embeddings de 768-1024 dimensiones.
- Agregación temporal (media, atención, pooling) → vector de dimensión fija.
- Clasificador (red neuronal, SVM, Random Forest) → probabilidad de «real» vs. «fake».
La precisión de estos sistemas supera el 97% en condiciones de laboratorio. Sin embargo, la degradación bajo condiciones del mundo real (compresión telefónica, ruido, ataques adversariales) sigue siendo un reto activo de investigación.
Análisis de la dinámica temporal del habla
Más allá del contenido espectral y frecuencial, el análisis forense moderno incorpora el estudio de la dinámica temporal del habla, que incluye métricas como:
Voice Onset Time (VOT): el tiempo entre la liberación de la oclusión consonántica y el inicio de la vibración de las cuerdas vocales. Es una métrica fonética extremadamente consistente para cada hablante y muy difícil de replicar con exactitud para los modelos de síntesis. Las consonantes oclusivas sordas del español (/p/, /t/, /k/) tienen VOTs de entre 10-30 ms, y cada hablante tiene rangos característicos.
Velocidad de habla (speech rate): medida en sílabas por segundo, la velocidad de habla natural varía entre 3-7 sílabas/segundo en español. Los deepfakes pueden mantener una velocidad artificialmente constante o mostrar patrones de variación que no corresponden con la prosodia natural del hablante objetivo.
Ritmo del habla: métricas como %V (proporción de intervalos vocálicos), ΔC (desviación estándar de intervalos consonánticos), rPVI y nPVI (índices de variabilidad por pares) caracterizan el ritmo del habla de un idioma y de un hablante individual. El español es una lengua de ritmo silábico (frente al inglés, que es acentual), y los modelos de síntesis entrenados predominantemente con datos en inglés pueden producir patrones rítmicos sutilmente incorrectos cuando generan español.
Distribución de la duración de fonemas: cada hablante tiene patrones característicos de duración para los diferentes fonemas. Las vocales tónicas son más largas que las átonas, las consonantes en posición final de sílaba se acortan, etc. Los modelos de TTS pueden producir distribuciones de duración estadísticamente diferentes a las del hablante objetivo.
Coarticulación: el habla humana es un proceso continuo donde cada sonido se ve influido por los sonidos adyacentes. Los formantes de una /a/ después de /k/ son diferentes a los de una /a/ después de /s/. Los modelos de síntesis replican la coarticulación de forma imperfecta, especialmente en secuencias consonánticas complejas que son frecuentes en español (como /ks/ en «examen», /ntr/ en «encontrar» o /str/ en «instrumento»).
Análisis estadístico avanzado: pruebas de autenticidad
Además del análisis cualitativo (visual, auditivo), el perito forense aplica pruebas estadísticas cuantitativas para determinar la autenticidad de una grabación:
Test de Gaussian Mixture Model (GMM): se entrenan dos modelos GMM —uno con datos de habla natural y otro con datos de habla sintética— y se evalúa la verosimilitud de la muestra cuestionada bajo cada modelo. La relación de verosimilitud (likelihood ratio) proporciona una medida cuantitativa de la probabilidad de que la muestra sea natural vs. sintética.
Test de Mahalanobis: se calcula la distancia de Mahalanobis entre las características extraídas de la muestra cuestionada y la distribución de características de la muestra de referencia del hablante. Distancias superiores a un umbral calibrado indican discrepancia (posible deepfake o diferente hablante).
Análisis discriminante lineal (LDA): se proyectan las características acústicas en un espacio de menor dimensionalidad que maximiza la separación entre clases (natural vs. sintético) y se evalúa la posición de la muestra cuestionada.
Tests de hipótesis sobre distribuciones: se comparan las distribuciones de F0, formantes, MFCC y otras características de la muestra cuestionada con las distribuciones esperadas para habla natural, utilizando tests estadísticos como Kolmogorov-Smirnov, Mann-Whitney U o chi-cuadrado.
Estos análisis estadísticos proporcionan evidencia cuantitativa que complementa el análisis perceptivo y visual, y son especialmente valiosos en el contexto judicial porque permiten expresar las conclusiones en términos de probabilidades y niveles de confianza.
Comparativa de precisión por tipo de deepfake
No todos los deepfakes son igualmente fáciles de detectar. La precisión de la detección varía significativamente según la herramienta de generación utilizada, la calidad de la muestra, y el canal de transmisión:
| Motor de generación | Detección en audio no comprimido | Detección a través de canal telefónico | Detección con 10 seg de audio | Detección con 60 seg de audio |
|---|---|---|---|---|
| ElevenLabs v3 | 97-99% | 85-92% | 90% | 98% |
| XTTS v2 | 96-98% | 82-90% | 88% | 97% |
| RVC (conversión) | 94-97% | 78-88% | 85% | 95% |
| VALL-E 2 (réplica) | 93-96% | 75-85% | 82% | 94% |
| GPT-SoVITS | 95-98% | 80-90% | 87% | 96% |
| OpenVoice v2 | 96-98% | 83-91% | 89% | 97% |
| Modelos adversariales | 70-85% | 55-75% | 65% | 80% |
Interpretación: estos datos, basados en la literatura publicada y en la experiencia de laboratorio, muestran que:
- La detección es significativamente más precisa con audio no comprimido que con audio transmitido por canal telefónico.
- La precisión mejora con la duración del audio disponible: más audio = más características estadísticas = mayor fiabilidad.
- Los modelos que incorporan técnicas adversariales (diseñados específicamente para evadir la detección) son significativamente más difíciles de identificar, con tasas de detección que pueden caer al 55-75% a través del canal telefónico.
- Incluso en el peor escenario (deepfake adversarial a través de canal telefónico con solo 10 segundos de audio), la detección supera el azar (50%), aunque la confianza puede no ser suficiente para una conclusión pericial firme.
El reto de los deepfakes adversariales
Una de las fronteras más preocupantes de la investigación actual es el desarrollo de deepfakes adversariales: audio sintético que ha sido específicamente diseñado para engañar a los sistemas de detección.
Los ataques adversariales funcionan añadiendo perturbaciones imperceptibles al audio generado que explotan vulnerabilidades en los clasificadores de detección. Estas perturbaciones son ruido estructurado, matemáticamente optimizado para maximizar la confianza del detector de que el audio es «real», sin afectar perceptiblemente la calidad del audio para un oyente humano.
En el ASVspoof 5, los ataques adversariales se incorporaron por primera vez como componente del desafío, y los resultados mostraron que el rendimiento de todos los detectores se degrada significativamente frente a estos ataques [31]. Esto plantea un escenario preocupante: un atacante sofisticado no solo puede generar un deepfake de alta calidad, sino que puede hacerlo específicamente resistente a la detección.
Sin embargo, los ataques adversariales tienen limitaciones prácticas:
- Requieren conocimiento del modelo de detección específico que se quiere evadir (attack transferability es limitada).
- Las perturbaciones adversariales pueden no sobrevivir a la compresión del canal telefónico (la compresión puede destruir las perturbaciones diseñadas para engañar al detector).
- Los enfoques de detección basados en múltiples modelos (ensemble) son más robustos frente a ataques adversariales que los modelos individuales.
La recomendación forense actual es utilizar siempre múltiples técnicas de detección independientes (análisis espectral manual, MFCC, modelos de IA, análisis de patrones de habla) para que un ataque adversarial optimizado contra un método específico no invalide toda la investigación.
Limitaciones de la detección actual
Es fundamental ser honesto sobre las limitaciones de las técnicas de detección:
Degradación por canal telefónico: la compresión del audio por la red telefónica (codecs AMR-NB, AMR-WB, Opus, EVS) elimina información espectral que es crítica para la detección. Un deepfake que sería detectable al 99% en audio no comprimido puede bajar al 80-85% de detección a través de una llamada telefónica.
Ataques adversariales: los generadores de deepfakes pueden incorporar técnicas adversariales que añaden perturbaciones imperceptibles al audio diseñadas específicamente para engañar a los detectores.
Carrera armamentística asimétrica: cada vez que se publica un nuevo detector, los generadores pueden adaptarse. Pero los detectores necesitan datos de los nuevos generadores para actualizarse, creando un retraso inherente.
Variabilidad de calidad: los modelos de detección entrenados con deepfakes generados por un motor específico (p.ej., ElevenLabs) pueden tener menor rendimiento frente a deepfakes de un motor diferente (p.ej., XTTS o RVC).
Generalizabilidad limitada: los resultados de laboratorio (>98% de precisión) no siempre se trasladan a escenarios operativos reales donde el audio llega degradado, con ruido y sin metadatos de proveniencia.
El criterio Daubert y la admisibilidad de la evidencia
En el contexto judicial, el análisis forense de deepfakes de voz debe cumplir los criterios de admisibilidad de la prueba pericial. En la jurisdicción española, la prueba pericial se rige por la Ley de Enjuiciamiento Civil (art. 335-352) y la Ley de Enjuiciamiento Criminal (art. 456-485), requiriendo que el perito justifique:
- La metodología empleada (que sea científicamente aceptada y reproducible).
- La cadena de custodia de la evidencia de audio.
- Las limitaciones de las técnicas utilizadas (tasas de error, falsos positivos).
- La cualificación del perito para realizar el análisis.
En el ámbito internacional, los criterios Daubert (utilizados en EE.UU. y referenciados en otras jurisdicciones) requieren que:
- La técnica sea verificable y haya sido probada.
- Haya sido sometida a revisión por pares y publicación.
- Se conozca su tasa de error.
- Existan estándares que controlen su aplicación.
- Haya aceptación general en la comunidad científica relevante.
Las técnicas de análisis espectral, formántico y de MFCC cumplen estos criterios sobradamente, dado que llevan décadas siendo utilizadas en fonética forense. Las técnicas basadas en IA (modelos de detección automatizada) están en proceso de consolidación, pero cada vez más juzgados las aceptan cuando se presentan como complemento —no como sustituto— del análisis pericial humano.
Metodología del perito informático: proceso forense completo
Cuando un caso de presunto deepfake de voz llega a mi laboratorio —ya sea como parte de una investigación de fraude, como prueba en un procedimiento judicial, o como verificación preventiva solicitada por una empresa—, el proceso de análisis forense sigue una metodología rigurosa de diez pasos que garantiza la validez procesal de las conclusiones.
Esta metodología se basa en los principios generales de la informática forense:
- Preservación: la evidencia original debe mantenerse intacta. Se trabaja siempre sobre copias verificadas.
- Documentación: cada paso del proceso debe documentarse de forma que sea reproducible por otro perito cualificado.
- Cadena de custodia: la trazabilidad de la evidencia desde su origen hasta el tribunal debe ser completa e ininterrumpida.
- Objetividad: el perito trabaja con hipótesis alternativas (audio natural vs. audio sintético) y evalúa cuál es más probable a la luz de las evidencias, sin sesgo hacia ninguna de las partes.
- Proporcionalidad: el nivel de análisis debe ser proporcional a la relevancia de la cuestión y a la calidad del material disponible.
- Actualización continua: dada la rápida evolución de las tecnologías de generación y detección, el perito debe mantenerse actualizado sobre los últimos avances en ambos campos.
Los estándares aplicables incluyen:
- ISO/IEC 27037: directrices para la identificación, recolección, adquisición y preservación de evidencia digital.
- ISO/IEC 27041: orientación sobre la garantía de idoneidad e idoneidad del método de investigación de incidentes.
- ISO/IEC 27042: directrices para el análisis e interpretación de evidencia digital.
- RFC 3227: directrices para la recolección y archivado de evidencia.
- SWGDE (Scientific Working Group on Digital Evidence): buenas prácticas para el análisis forense digital, incluyendo audio.
Recepción y evaluación del encargo: se recibe la solicitud del cliente (abogado, empresa, particular, juzgado) y se evalúa la viabilidad del análisis. Se determina qué tipo de análisis se necesita (autenticidad, comparación de hablantes, detección de manipulación) y qué materiales están disponibles (grabación cuestionada, muestras de referencia, información contextual). Se firma un acuerdo de confidencialidad y se establece el alcance del peritaje.
Adquisición forense del audio: se obtiene la grabación original con toda su cadena de custodia documentada. El proceso depende del origen de la evidencia:
- Si proviene de un teléfono móvil: se realiza una extracción forense del dispositivo utilizando herramientas certificadas (Cellebrite UFED, Oxygen Forensic Detective, MSAB XRY), preservando no solo el archivo de audio sino también los metadatos del sistema operativo (fecha de recepción de la llamada, duración, número de origen, registros de la aplicación).
- Si es una grabación de sistema telefónico corporativo: se solicitan los registros completos de la centralita (PBX), incluyendo logs de llamadas, grabaciones del sistema IVR y registros de enrutamiento.
- Si es un archivo digital: se obtiene una copia bit a bit del archivo y se documenta su origen, fecha de obtención y cadena de posesión.
- En todos los casos, se calcula el hash criptográfico (SHA-256 y MD5) del archivo original en el momento de la adquisición, garantizando que cualquier modificación posterior sea detectable.
Análisis de metadatos y contenedor: se examinan los metadatos del archivo de audio con herramientas como MediaInfo, ExifTool y ffprobe:
- Formato del contenedor: WAV, MP3, OGG, AAC, M4A, OPUS.
- Codec de audio: PCM, AAC-LC, Opus, AMR-NB, AMR-WB.
- Tasa de muestreo: 8 kHz (telefonía), 16 kHz (banda ancha), 22,05 kHz, 44,1 kHz, 48 kHz.
- Profundidad de bits: 16-bit, 24-bit, 32-bit float.
- Bitrate: fijo o variable, valor.
- Fecha de creación y modificación: incluida la fecha del sistema de archivos y la fecha embebida en el contenedor.
- Software de grabación: si está embebido en los metadatos (p.ej., «com.whatsapp», «Zoom», «audacity»).
- Inconsistencias: un archivo WAV PCM a 44,1 kHz que supuestamente proviene de una llamada telefónica GSM (que opera a 8 kHz AMR-NB) es inmediatamente sospechoso. Un archivo con metadatos de un software de edición de audio cuando se presenta como grabación directa es igualmente problemático.
Análisis espectral: se genera el espectrograma del audio completo utilizando herramientas profesionales (Praat, Audacity con plugins especializados, iZotope RX, Adobe Audition, Python con librosa/matplotlib). Se examinan:
- Distribución general de energía: ¿el espectro es consistente con habla humana a través del canal indicado?
- Formantes y transiciones: ¿las transiciones entre fonemas son naturales o presentan discontinuidades?
- Rango de frecuencias: ¿hay energía por encima de la frecuencia de Nyquist del canal indicado? (una grabación telefónica no debería tener contenido por encima de 3.400 Hz en telefonía estándar o 7.000 Hz en HD Voice).
- Artefactos de generación: ¿se observan patrones repetitivos, discontinuidades o artefactos en frecuencias altas que sugieran procesamiento por un vocoder neuronal?
- Consistencia del ruido de fondo: ¿el ruido de fondo es uniforme a lo largo de toda la grabación, o cambia de forma inconsistente?
Análisis de formantes y comparación: utilizando Praat y scripts personalizados, se extraen los formantes F1-F5 a lo largo de la grabación y se analizan:
- Distribución de formantes vocálicos: se grafica el espacio vocálico (F1 vs F2) y se compara con: a) Las distribuciones esperadas para el idioma/dialecto del hablante. b) Las distribuciones de la muestra de referencia del hablante (si está disponible). c) Las distribuciones típicas de los sistemas de síntesis conocidos.
- Variabilidad temporal: ¿los formantes presentan la micro-variabilidad esperada de la producción vocal humana, o son excesivamente estáticos?
- Transiciones consonante-vocal: ¿las transiciones formánticas en los bordes de consonantes son naturales?
Extracción y análisis de características acústicas: se extraen vectores de características utilizando múltiples representaciones:
- MFCC: 13-40 coeficientes + deltas + delta-deltas.
- LFCC: coeficientes cepstrales en escala de frecuencia lineal.
- F0 (pitch contour): frecuencia fundamental a lo largo del tiempo, incluyendo jitter.
- Energía y shimmer: variaciones de amplitud.
- HNR: relación armónico-ruido.
- Características de calidad vocal: LTAS (Long-Term Average Spectrum), CoG (Centre of Gravity). Estas características se analizan estadísticamente y se comparan con las distribuciones esperadas para habla natural y para los principales motores de generación.
Detección mediante modelos de IA: las muestras de audio se procesan a través de múltiples herramientas de detección automatizada:
- Resemble Detect: modelo comercial de detección de deepfakes de audio.
- Modelos académicos: AASIST, Wav2Vec 2.0 + clasificador, HuBERT + clasificador.
- Modelos propios: entrenados y validados con datasets de ASVspoof y deepfakes generados por los principales motores comerciales y de código abierto. Se utiliza un enfoque de ensemble (combinación de múltiples modelos) para maximizar la fiabilidad y reducir la tasa de falsos positivos/negativos.
Análisis de patrones de habla: se examinan aspectos suprasegmentales:
- Patrones de respiración: presencia, ubicación, naturalidad, duración.
- Pausas llenas: presencia y naturalidad de «eeh», «mmm», «ah».
- Disfluencias: tartamudeos, repeticiones, autocorrecciones.
- Velocidad de habla: ¿es constante o varía naturalmente?
- Rango dinámico: ¿la voz tiene la variabilidad de volumen esperada?
Síntesis de resultados y conclusión: se integran todos los hallazgos de los pasos anteriores para formular una conclusión técnica que responda a la pregunta planteada por el solicitante:
- ¿El audio analizado es consistente con habla humana natural, o presenta indicios de generación sintética?
- Si se dispone de muestra de referencia: ¿las características vocales del audio cuestionado son consistentes con las del hablante de referencia, o presentan discrepancias significativas?
- ¿Qué grado de confianza tiene la conclusión? (expresado como probabilidad o como escala de verosimilitud).
- ¿Qué limitaciones afectan a la conclusión? (calidad del audio, canal de transmisión, disponibilidad de muestras de referencia).
Elaboración del informe pericial y ratificación: se redacta el informe pericial completo, que incluye:
- Identificación del perito y acreditación.
- Descripción del encargo y las cuestiones planteadas.
- Descripción detallada de la metodología empleada.
- Herramientas y software utilizados (con versiones).
- Resultados de cada fase de análisis con capturas, gráficos y tablas.
- Conclusiones técnicas, expresadas con claridad y con indicación del grado de certeza.
- Limitaciones del análisis.
- Bibliografía y estándares de referencia. El informe se redacta en un lenguaje comprensible para un juez o tribunal no especializado en acústica forense, sin sacrificar el rigor técnico. El perito se prepara para la ratificación en vista oral, donde deberá defender sus conclusiones frente a preguntas de las partes.
Estructura tipo de un informe pericial de deepfake de voz
El informe pericial es el producto final del análisis forense y el documento que se presenta ante el tribunal. Para que sea admisible y convincente, debe seguir una estructura rigurosa:
1. Portada e identificación
- Título del informe.
- Número de referencia del encargo.
- Datos del perito: nombre completo, DNI/NIF, titulación académica, formación especializada, número de colegiado (si aplica), experiencia profesional relevante.
- Fecha de emisión.
- Juramento o promesa de veracidad y objetividad.
2. Objeto del informe
- Descripción precisa de las cuestiones que se le han planteado al perito.
- Ejemplo: «Determinar si la grabación de audio aportada como Documento nº 3 de la demanda contiene voz humana natural o voz generada sintéticamente mediante tecnología de inteligencia artificial.»
3. Antecedentes y material recibido
- Descripción del material analizado: formato del archivo, duración, fecha de recepción, cómo se recibió, quién lo entregó.
- Cadena de custodia documentada.
- Hashes criptográficos (SHA-256, MD5) del material recibido.
- Material de referencia: muestras de la voz del hablante cuya identidad se cuestiona, si se han proporcionado.
4. Metodología empleada
- Descripción detallada de cada técnica de análisis utilizada, con referencia a publicaciones científicas que la avalan.
- Software utilizado con indicación de versiones.
- Hardware utilizado (para análisis que dependen de la capacidad computacional).
- Estándares y buenas prácticas seguidas (ISO 27037 para evidencia digital, directrices de la Interpol para análisis forense de audio, etc.).
5. Resultados del análisis
- Análisis de metadatos: tabla con los metadatos extraídos y su interpretación.
- Análisis espectral: espectrogramas anotados con indicación de las regiones de interés.
- Análisis de formantes: gráficos de distribución de F1-F5, comparación con muestras de referencia.
- Análisis de MFCC y otras características: resultados estadísticos.
- Detección por modelos de IA: resultados de cada modelo utilizado, con indicación de la probabilidad de que el audio sea sintético.
- Análisis de patrones de habla: observaciones sobre respiración, pausas, disfluencias.
6. Discusión
- Interpretación integrada de todos los resultados.
- Evaluación de las hipótesis en juego (audio natural vs. audio sintético).
- Grado de confianza de las conclusiones.
- Factores que pueden haber afectado al análisis (calidad del audio, compresión, ausencia de muestra de referencia).
7. Conclusiones
- Respuestas claras y directas a las cuestiones planteadas en el objeto del informe.
- Expresadas en un lenguaje comprensible para el destinatario (juez, abogado, no especialista).
- Con indicación del grado de certeza.
8. Limitaciones
- Enumeración explícita de las limitaciones del análisis.
- Circunstancias que podrían alterar las conclusiones.
9. Bibliografía
- Referencias a las publicaciones científicas, estándares y normativas citados en el informe.
10. Anexos
- Espectrogramas a tamaño completo.
- Tablas de datos estadísticos.
- Capturas de pantalla de los análisis.
- Certificados de las herramientas de software utilizadas.
- Cadena de custodia completa.
Cadena de custodia específica para evidencia de audio
La cadena de custodia para evidencia de audio digital tiene particularidades que la distinguen de otros tipos de evidencia digital:
Adquisición del audio de un teléfono móvil:
Documentar el estado del dispositivo: fotografiar el dispositivo, anotar modelo, IMEI, estado de la batería, hora del sistema. Verificar si tiene activado el modo avión.
Preservar el dispositivo: colocar en bolsa de Faraday (para evitar modificaciones remotas) o activar el modo avión. No apagar el dispositivo si está encendido (podría activar el cifrado).
Extracción forense: utilizar herramienta certificada (Cellebrite UFED, Oxygen Forensic, MSAB XRY) para realizar una extracción lógica o física del dispositivo. La extracción debe incluir:
- El archivo de audio de la grabación (si existe).
- Los metadatos de la aplicación de grabación (fecha, duración, codec).
- El registro de llamadas (fecha, hora, duración, número de origen).
- Los metadatos del sistema operativo (historial de apps activas en el momento de la llamada).
Calcular hashes: SHA-256 y MD5 de cada archivo relevante extraído. Documentar los hashes en el acta de extracción.
Preservar copias: crear al menos dos copias verificadas (bit a bit) del material extraído, almacenadas en soportes diferentes y en ubicaciones diferentes.
Documentar la cadena: registrar quién ha tenido acceso al dispositivo y al material extraído, cuándo, dónde y para qué.
Adquisición del audio de un sistema de grabación de centralita:
Contactar con el administrador del sistema de telecomunicaciones de la empresa para identificar el sistema de grabación y solicitar los registros relevantes.
Identificar el segmento de grabación: localizar la grabación específica de la llamada sospechosa, identificada por fecha, hora, extensión de destino y número de origen.
Exportar en formato nativo: solicitar la exportación del audio en el formato nativo del sistema de grabación (muchos sistemas utilizan formatos propietarios). Si solo es posible exportar en un formato estándar (WAV, MP3), documentar el proceso de conversión.
Solicitar logs del sistema: registros del sistema de grabación que confirmen la integridad del archivo (timestamp de inicio/fin de grabación, codec utilizado, verificaciones de integridad del sistema).
Calcular hashes y preservar: mismo procedimiento que con la extracción móvil.
Adquisición del audio de una nota de voz de WhatsApp/Telegram:
No reenviar la nota de voz: cada reenvío puede modificar los metadatos. Si el audio está en un chat, se preserva extrayendo del dispositivo, no reenviando.
Extracción forense del dispositivo: mismo procedimiento que para la extracción de teléfono móvil. Las notas de voz de WhatsApp se almacenan en el directorio
/WhatsApp/Media/WhatsApp Voice Notes/(Android) o en la base de datos de WhatsApp (iOS).Extraer metadatos de la base de datos de la app: las bases de datos de WhatsApp (msgstore.db en Android, ChatStorage.sqlite en iOS) contienen metadatos de cada mensaje, incluyendo timestamp del servidor (no solo del dispositivo), tamaño del archivo, codec, y si el mensaje fue grabado localmente o reenviado.
Hash y preservación: procedimiento estándar.
Caso práctico: cómo se detectó un deepfake de voz en un caso de fraude del CEO
Para ilustrar la metodología descrita, presento un caso práctico anonimizado representativo de los análisis que realizo en mi laboratorio.
Contexto: una empresa española recibió una llamada telefónica supuestamente del CEO solicitando una transferencia de 45.000 euros a una cuenta en Portugal. La empresa, que tenía protocolo de doble autorización, solicitó confirmación por email. El atacante envió un email desde una dirección similar (con un carácter de diferencia) confirmando la transferencia. El controller financiero, ante la «doble confirmación» (voz + email), ejecutó la transferencia. Cuando el CEO real fue contactado al día siguiente, confirmó que no había realizado esa llamada ni enviado ese email.
Material disponible: grabación de la llamada sospechosa (1 minuto 47 segundos, formato WAV 16 kHz, capturada por el sistema de grabación de la centralita); múltiples grabaciones verificadas del CEO (vídeos corporativos, grabaciones de reuniones internas).
Proceso de análisis:
Metadatos: el archivo WAV mostró una fecha de creación coherente con el momento de la llamada. Los metadatos del sistema de grabación de la centralita confirmaron que la llamada procedía de un número VoIP (no del móvil real del CEO), aunque el identificador de llamada mostraba el número del CEO (spoofing confirmado por el operador).
Análisis espectral: el espectrograma de la llamada sospechosa mostró:
- Ausencia de energía por encima de 7,5 kHz, consistente con transmisión por red telefónica con codec AMR-WB.
- Sin embargo, en el rango 5-7,5 kHz se observaron patrones periódicos regulares que no corresponden a habla natural: artefactos de vocoder con una periodicidad de aproximadamente 10 ms, consistentes con la firma espectral de HiFi-GAN.
- Las transiciones entre vocales y consonantes presentaban discontinuidades sutiles pero mensurables que no aparecían en las muestras de referencia del CEO.
Análisis de formantes: la comparación del espacio vocálico (F1 vs F2) entre la llamada sospechosa y las muestras de referencia del CEO mostró:
- Concordancia general del rango de formantes (consistente con que la voz había sido clonada a partir de muestras reales del CEO).
- Sin embargo, la variabilidad intra-hablante en la muestra sospechosa era significativamente menor que en las muestras de referencia (desviación estándar de F1 un 35% inferior), indicando formantes excesivamente estáticos, hallazgo típico de síntesis.
Análisis de patrones de habla: se detectó una ausencia total de respiraciones audibles en 1 minuto 47 segundos de habla. En habla natural, un hablante inhala cada 3-6 segundos de media. El CEO habla a una velocidad de aproximadamente 4,5 sílabas/segundo, lo que implica que en 107 segundos deberían haberse producido entre 18 y 36 inspiraciones. Se detectaron cero.
Detección por IA: tres modelos independientes clasificaron el audio como sintético con probabilidades de 94,2%, 97,1% y 91,8% respectivamente.
Conclusión del informe pericial: «Con un grado de certeza alto, las observaciones realizadas son significativamente más probables bajo la hipótesis de que el audio analizado ha sido generado mediante un sistema de síntesis de voz basado en inteligencia artificial que bajo la hipótesis de que se trata de habla natural del hablante de referencia [CEO].»
El informe fue ratificado en juicio y la empresa pudo utilizar las conclusiones tanto en el procedimiento penal contra los responsables (que fueron identificados a través de la investigación del operador VoIP utilizado) como en la reclamación civil contra la entidad bancaria por la ejecución de la transferencia sin verificación adecuada.
Herramientas del laboratorio forense
| Herramienta | Función | Tipo |
|---|---|---|
| Praat | Análisis acústico, formantes, F0, espectrogramas | Software libre (académico) |
| iZotope RX | Análisis espectral avanzado, restauración de audio | Comercial |
| Adobe Audition | Edición y análisis espectral | Comercial |
| Audacity | Análisis básico, visualización | Software libre |
| Python + librosa | Extracción de MFCC, LFCC, análisis programático | Software libre |
| Python + Praat-Parselmouth | Análisis acústico automatizado | Software libre |
| MediaInfo / ExifTool | Análisis de metadatos | Software libre |
| Cellebrite UFED | Extracción forense de dispositivos móviles | Comercial (forense) |
| Oxygen Forensic Detective | Extracción forense y análisis de apps | Comercial (forense) |
| FTK Imager | Adquisición forense de imágenes de disco | Comercial |
| Resemble Detect | Detección automatizada de deepfakes | Comercial (API) |
| Modelos ASVspoof | Detección basada en aprendizaje profundo | Académico / código abierto |
Marco legal: qué dice la ley sobre los deepfakes de voz
Código Penal español
El uso criminal de deepfakes de voz se persigue en España a través de varios tipos penales del Código Penal (LO 10/1995, modificada). Aunque no existe todavía un tipo penal específico para los deepfakes, los tipos existentes son aplicables y suficientes para perseguir la mayoría de las conductas delictivas asociadas.
| Artículo | Delito | Aplicación a deepfakes de voz | Pena | Agravantes |
|---|---|---|---|---|
| Art. 248-249 CP | Estafa | Uso de voz clonada para obtener transferencias fraudulentas. El deepfake constituye el «engaño bastante» del tipo penal. | 6 meses - 3 años (básico) | Art. 250: hasta 6 años si supera 50.000 €, afecta a muchas personas, o se comete abusando de relaciones de confianza |
| Art. 197 CP | Descubrimiento y revelación de secretos | Grabación ilícita de voz para obtener la muestra de clonación, interceptación de comunicaciones | 1-4 años + multa | Agravado si afecta a datos especialmente protegidos (biométricos) |
| Art. 197 bis CP | Acceso ilícito a sistemas | Si se accede a sistemas informáticos para obtener muestras de voz (buzones de voz, grabaciones de centralita) | 6 meses - 2 años | — |
| Art. 401 CP | Usurpación de estado civil | Suplantación de identidad mediante voz clonada | 6 meses - 3 años | — |
| Art. 390-392 CP | Falsedad documental | Si la grabación deepfake se utiliza como «documento» falso en un procedimiento judicial o administrativo | 3-6 años + multa | — |
| Art. 264 CP | Daños informáticos | Si el ataque incluye manipulación de sistemas informáticos | 6 meses - 3 años | Agravado si afecta a infraestructuras críticas |
| Art. 570 bis-ter CP | Organizaciones y grupos criminales | Si el fraude se comete en el marco de una organización criminal | Penas incrementadas según la organización | — |
El deepfake como engaño bastante
Un aspecto jurídico relevante es que el uso de un deepfake de voz o una voz clonada constituye, por sí mismo, un «engaño bastante» de altísima calificación a efectos del delito de estafa del artículo 248 CP [32]. La jurisprudencia española exige que el engaño sea «suficiente y proporcionado» para inducir a error a la víctima. Un deepfake de voz de alta calidad, combinado con spoofing telefónico, cumple sobradamente este requisito: incluso una persona razonablemente diligente sería engañada.
Esto tiene implicaciones importantes para la responsabilidad civil de las entidades bancarias: si un empleado de banca autoriza una transferencia fraudulenta inducido por un deepfake de voz de alta calidad, la cuestión de si el banco puede repercutir la pérdida al cliente que «autorizó» la operación es jurídicamente compleja.
Protección de la voz como dato biométrico (RGPD)
La voz es un dato biométrico según el artículo 4.14 del RGPD (Reglamento UE 2016/679), definido como «datos personales obtenidos a partir de un tratamiento técnico específico, relativos a las características físicas, fisiológicas o conductuales de una persona física que permitan o confirmen la identificación única de dicha persona».
El artículo 9 del RGPD prohíbe el tratamiento de datos biométricos salvo excepciones tasadas (consentimiento explícito, interés vital, procedimiento judicial, etc.). Por tanto:
- Clonar la voz de una persona sin su consentimiento explícito constituye un tratamiento ilícito de datos biométricos, sancionable con multas de hasta 20 millones de euros o el 4% de la facturación global anual de la empresa infractora.
- Los proveedores de herramientas de clonación que no implementen medidas adecuadas para verificar el consentimiento del titular de la voz podrían ser considerados corresponsables.
- La voz clonada es, en sí misma, un dato personal derivado cuyo tratamiento está sujeto a las mismas obligaciones del RGPD.
Derecho a la propia imagen y voz (Constitución Española)
El artículo 18.1 de la Constitución Española reconoce el derecho al honor, a la intimidad personal y familiar y a la propia imagen. La jurisprudencia del Tribunal Constitucional ha extendido este derecho a la propia voz como parte integrante de la imagen personal. La Ley Orgánica 1/1982 de Protección Civil del Derecho al Honor, a la Intimidad Personal y Familiar y a la Propia Imagen protege contra la captación, reproducción o publicación de la imagen (y por extensión, la voz) de una persona sin su consentimiento.
La creación de un deepfake de voz sin consentimiento constituye una vulneración de estos derechos fundamentales, con independencia del uso que se dé al material generado.
AI Act europeo: obligaciones de transparencia
El Reglamento (UE) 2024/1689 del Parlamento Europeo y del Consejo (conocido como AI Act), cuyas primeras disposiciones entraron en vigor en febrero de 2025, introduce por primera vez obligaciones específicas de transparencia para los deepfakes [33].
Artículo 50: obligaciones de transparencia
El artículo 50 del AI Act establece obligaciones específicas para proveedores y desplegadores de sistemas de IA que generen contenido sintético:
50.1 — Los proveedores de sistemas de IA que generen contenido de audio, imagen, vídeo o texto sintético deben garantizar que los resultados estén marcados en un formato legible por máquina y sean detectables como generados artificialmente.
50.2 — Se debe marcar técnicamente (watermarking digital) el contenido como generado por IA.
50.4 — Los desplegadores de sistemas de IA que generen deepfakes deben revelar que el contenido ha sido generado o manipulado artificialmente.
Estas obligaciones entrarán en vigor en agosto de 2026. Para apoyar su cumplimiento, la Comisión Europea publicó en diciembre de 2025 el primer borrador del Código de Práctica sobre Transparencia del Contenido Generado por IA, cuya versión final se espera para junio de 2026 [34].
Sanciones del AI Act
| Tipo de infracción | Multa máxima |
|---|---|
| Prácticas de IA prohibidas (art. 5) | 35 millones € o 7% facturación global |
| Otras infracciones importantes (incluye art. 50) | 15 millones € o 3% facturación global |
| Suministro de información inexacta | 7,5 millones € o 1% facturación global |
Limitación práctica del AI Act
Es fundamental entender que el AI Act regula principalmente a los proveedores de tecnología y a los desplegadores legítimos, no a los criminales. Un estafador que utiliza un deepfake de voz para cometer fraude obviamente no va a etiquetar el contenido como sintético ni a cumplir con las obligaciones de transparencia.
La utilidad del AI Act en el contexto de los deepfakes criminales reside en:
- Obligar a los proveedores de herramientas (ElevenLabs, Resemble AI, etc.) a implementar medidas de verificación de identidad y detección de uso fraudulento.
- Facilitar la detección técnica al exigir watermarking en el contenido generado legítimamente (el contenido sin watermark se vuelve sospechoso por defecto).
- Crear un marco de responsabilidad para los intermediarios tecnológicos que faciliten el uso criminal de estas herramientas.
Protección penal de grabaciones de audio como prueba
Un aspecto de creciente relevancia es la utilización de deepfakes de voz como prueba falsa en procedimientos judiciales. El artículo 390 del Código Penal español tipifica la falsedad documental, y la jurisprudencia ha ido extendiendo progresivamente el concepto de «documento» a formatos digitales, incluidas las grabaciones de audio.
Si alguien fabrica una grabación de audio mediante clonación de voz y la presenta como prueba en un procedimiento judicial (civil, penal, laboral o contencioso-administrativo), puede incurrir en:
| Delito | Artículo | Pena | Aplicación |
|---|---|---|---|
| Falsedad documental por particular | Art. 392-395 CP | 6 meses - 3 años + multa | Presentar audio deepfake como prueba |
| Acusación y denuncia falsa | Art. 456 CP | 6 meses - 2 años | Usar deepfake para denunciar falsamente |
| Simulación de delito | Art. 457 CP | Multa 3-6 meses | Fabricar llamada de amenaza/extorsión inexistente |
| Obstrucción a la justicia | Art. 463 bis CP | 1-4 años | Presentar prueba falsificada para alterar resultado judicial |
| Falso testimonio | Art. 458 CP | 6 meses - 2 años | Ratificar en juicio la autenticidad de un audio deepfake |
La proliferación de los deepfakes de voz plantea un desafío sin precedentes para la administración de justicia: si cualquier grabación de audio puede ser fabricada con IA, ¿cómo puede un tribunal confiar en las grabaciones presentadas como prueba?
La respuesta pasa necesariamente por la intervención del perito informático forense, que se convierte en la figura clave para verificar la autenticidad de las pruebas de audio en la era de la IA. Sin un análisis pericial que certifique la autenticidad (o la falsedad) de una grabación, los tribunales se enfrentan a una incertidumbre que puede socavar la función misma de la prueba.
Responsabilidad civil de los proveedores de tecnología
La cuestión de la responsabilidad civil de las empresas que desarrollan y comercializan herramientas de clonación de voz es un terreno jurídicamente complejo y en evolución. ¿Puede una víctima de fraude con deepfake de voz demandar a ElevenLabs o a Coqui por haber proporcionado la herramienta utilizada en la estafa?
En el derecho español, la responsabilidad civil extracontractual (art. 1902 del Código Civil) requiere demostrar la existencia de un daño, una acción u omisión negligente y un nexo causal. Los argumentos en debate incluyen:
A favor de la responsabilidad: si un proveedor no implementa medidas razonables de verificación de identidad (confirmar que el usuario tiene derecho a clonar la voz que está subiendo) ni de detección de uso fraudulento, puede argumentarse negligencia en el diseño del servicio. Algunos proveedores, como Descript, ya exigen al usuario grabar una frase de consentimiento con su propia voz antes de permitir la clonación; otros, como algunas herramientas de código abierto, no tienen ningún mecanismo de control.
En contra de la responsabilidad: la tecnología tiene usos legítimos amplios (accesibilidad, producción audiovisual, preservación de voces de personas fallecidas), y responsabilizar al fabricante de la herramienta por su uso criminal es análogo a responsabilizar al fabricante de cuchillos por un apuñalamiento. El Código Penal responsabiliza al autor del delito, no al creador de las herramientas.
El AI Act como punto medio: el Reglamento europeo de IA establece obligaciones de transparencia y diligencia para los proveedores de sistemas de IA, lo que podría servir como base para argumentar responsabilidad cuando un proveedor no cumpla estas obligaciones.
La prueba pericial de audio en la jurisdicción española
En el sistema procesal español, la prueba pericial se regula en:
- Ley de Enjuiciamiento Civil (arts. 335-352): regula la prueba pericial en el proceso civil, incluyendo la designación del perito, la elaboración del dictamen y su ratificación en juicio.
- Ley de Enjuiciamiento Criminal (arts. 456-485): regula la prueba pericial en el proceso penal, con mayor peso en la libertad de valoración por parte del juez.
El perito informático forense que analiza un deepfake de voz debe:
- Acreditar su cualificación: formación en acústica forense, informática forense, experiencia demostrable en análisis de audio.
- Describir exhaustivamente la metodología: cada paso del análisis debe estar documentado y ser reproducible por otro perito cualificado.
- Expresar las conclusiones con rigor: utilizando escalas de verosimilitud (p.ej., «las observaciones son mucho más probables bajo la hipótesis de que el audio es sintético que bajo la hipótesis de que es natural»), o indicando claramente el nivel de confianza.
- Señalar las limitaciones: del audio, de las herramientas, de la metodología, de la ausencia de muestras de referencia.
- Ratificar en vista oral: respondiendo a las preguntas de las partes y del juez, explicando conceptos técnicos complejos de forma comprensible.
La prueba pericial en materia de deepfakes de voz es especialmente relevante en los siguientes tipos de procedimientos:
| Tipo de procedimiento | Rol de la prueba pericial |
|---|---|
| Penal (estafa, suplantación) | Determinar que la voz en la llamada era sintética para acreditar el engaño |
| Civil (responsabilidad bancaria) | Demostrar que la transferencia fue inducida por deepfake, no por negligencia del cliente |
| Laboral (despido) | Verificar si una grabación de voz presentada como prueba de falta disciplinaria es auténtica o fabricada |
| Familia (custodia) | Analizar grabaciones de amenazas o declaraciones presentadas como prueba |
| Contencioso-administrativo | Verificar autenticidad de declaraciones grabadas presentadas ante organismos públicos |
Legislación comparada internacional
| Jurisdicción | Regulación relevante | Estado | Penas/Sanciones |
|---|---|---|---|
| España | CP arts. 248, 197, 401 + RGPD + AI Act | Aplicable (sin tipo específico para deepfakes) | Hasta 6 años prisión (estafa agravada) + multas RGPD |
| UE | AI Act (Reg. 2024/1689) | En vigor parcial; art. 50 desde agosto 2026 | Hasta 35M€ o 7% facturación global |
| EE.UU. (Federal) | No Fakes Act (propuesto), DEFIANCE Act | En trámite legislativo | Variable según estado y tipo |
| EE.UU. (California) | AB 2655 (deepfakes electorales) | En vigor desde enero 2025 | Sanciones civiles y penales |
| EE.UU. (FTC) | Regulación sobre uso de IA en telemarketing | En vigor | Hasta 6M$ por violación (caso Biden) |
| Reino Unido | Online Safety Act + Criminal Justice Bill | En vigor / en trámite | Hasta 2 años prisión |
| China | Regulación de Síntesis Profunda | En vigor desde enero 2023 | Sanciones administrativas + penales |
| Australia | Criminal Code Amendment (Deepfakes) | En vigor desde 2024 | Hasta 7 años prisión |
| Corea del Sur | Ley de deepfakes sexuales | En vigor desde 2024 | Hasta 5 años prisión |
Análisis jurisprudencial: primeras sentencias sobre deepfakes en España
Aunque la jurisprudencia española específica sobre deepfakes de voz es todavía incipiente (la mayoría de los casos están en fase de instrucción o no han llegado a sentencia firme), existen precedentes relevantes que orientan la interpretación:
Sobre la voz como dato biométrico protegido: la AEPD ha sancionado a empresas por tratar grabaciones de voz sin consentimiento adecuado (expedientes PS/00236/2020, PS/00126/2021), estableciendo que la voz es un dato personal que requiere base legitimadora y, cuando se utiliza para identificación biométrica, constituye un dato de categoría especial (art. 9 RGPD) que exige consentimiento explícito.
Sobre la estafa con suplantación de identidad: la STS 456/2023 del Tribunal Supremo confirmó que la suplantación de identidad digital (en aquel caso, mediante phishing y no deepfake) constituye un «engaño bastante» a efectos del delito de estafa del art. 248 CP, incluso cuando la víctima podría haber verificado la identidad del interlocutor con mayor diligencia. Esta línea jurisprudencial es directamente aplicable a los deepfakes de voz.
Sobre la admisibilidad de grabaciones como prueba: el Tribunal Constitucional (STC 114/1984) y el Tribunal Supremo han establecido que las grabaciones de audio son admisibles como prueba en la jurisdicción española, siempre que se respeten los derechos fundamentales en su obtención. La cuestión emergente es: ¿hasta qué punto un tribunal puede confiar en una grabación sin un análisis pericial de autenticidad?
Tendencia futura: es previsible que en los próximos años veamos sentencias que aborden específicamente:
- La calificación penal de la clonación de voz sin consentimiento.
- La responsabilidad de los proveedores de herramientas de clonación.
- Los requisitos de admisibilidad de grabaciones de audio ante la posibilidad de deepfakes.
- La valoración de la prueba pericial de detección de deepfakes.
Protección para empresas
Las empresas son el objetivo principal de los ataques de deepfake de voz, especialmente a través del fraude del CEO y el fraude a proveedores. La implementación de medidas de protección es urgente y, en muchos casos, puede hacerse con coste mínimo.
Protección sectorial específica
Los riesgos y las medidas de protección varían significativamente según el sector de actividad de la empresa:
Sector financiero (banca, seguros, gestoras):
- Riesgo principal: suplantación de clientes para autorizar operaciones, suplantación de empleados para robar datos.
- Medidas clave: implementación de detección de deepfakes en el contact center (Pindrop Pulse), eliminación de la autenticación por voz como único factor, verificación biométrica multimodal, formación específica del personal de front-office.
- Marco regulatorio: la DORA (Digital Operational Resilience Act) exige a las entidades financieras europeas gestionar los riesgos de las TIC, incluyendo la defensa contra ciberataques con IA.
Sector legal (bufetes de abogados, asesorías):
- Riesgo principal: fabricación de grabaciones como prueba falsa, suplantación de la identidad de abogados o clientes para obtener información privilegiada.
- Medidas clave: cifrado de todas las comunicaciones, autenticación fuerte de las instrucciones de los clientes, verificación presencial de instrucciones que impliquen movimientos de fondos (especialmente en operaciones inmobiliarias y mercantiles), formación sobre la existencia de deepfakes y su impacto en la práctica procesal.
Sector sanitario (hospitales, clínicas, aseguradoras de salud):
- Riesgo principal: suplantación de pacientes o profesionales sanitarios para obtener datos médicos, autorizar tratamientos o acceder a medicamentos controlados.
- Medidas clave: autenticación multifactor para acceso a historiales clínicos, verificación de identidad presencial para decisiones médicas críticas.
Sector inmobiliario (agencias, promotoras, notarías):
- Riesgo principal: suplantación de propietarios para autorizar ventas, cambio de datos bancarios del beneficiario de una transacción inmobiliaria.
- Medidas clave: verificación presencial obligatoria ante notario para operaciones de compraventa, protocolo de doble verificación para cambios de cuenta de destino de fondos.
Sector tecnológico (startups, empresas de software):
- Riesgo principal: fraude del CEO (especialmente en startups donde los procesos son menos formales), robo de propiedad intelectual, suplantación en negociaciones con inversores.
- Medidas clave: formalización de procesos de autorización de pagos (aunque la cultura sea «informal»), uso de herramientas de gestión de tesorería con aprobaciones multinivel.
Protocolo antifraude CEO: medidas inmediatas (coste cero)
Palabra clave secreta para transferencias: acordar offline (en persona, nunca por teléfono ni por email) entre el CEO, el director financiero y cualquier persona con capacidad de autorizar pagos una palabra clave que debe mencionarse en cualquier solicitud de transferencia por teléfono. Cambiar la palabra cada mes. Si la persona que llama no la conoce o la dice incorrectamente, se rechaza la solicitud y se alerta al equipo de seguridad.
Principio de doble canal: toda instrucción de pago recibida por un canal (teléfono) debe confirmarse obligatoriamente por otro canal independiente (email corporativo, mensaje en el sistema ERP, confirmación presencial). Nunca ejecutar una transferencia basándose únicamente en una llamada telefónica, sin importar quién parezca ser el que llama.
Principio de doble autorización: configurar en los sistemas de banca electrónica que cualquier transferencia superior a un umbral definido (p.ej., 5.000 €) requiera la autorización de al menos dos personas. Esto elimina la posibilidad de que un solo empleado engañado pueda consumar el fraude.
Verificación de callback: ante cualquier solicitud de transferencia telefónica, colgar y devolver la llamada al número oficial del solicitante (almacenado en la agenda corporativa, no el número que aparece en la pantalla del teléfono).
Registro de excepciones: documentar y revisar periódicamente cualquier solicitud de pago que se haya presentado como «urgente», «confidencial» o «excepcional». Estos son los indicadores clásicos de la ingeniería social.
Medidas técnicas
| Medida | Descripción | Coste estimado |
|---|---|---|
| Grabación de llamadas | Grabación sistemática de llamadas entrantes en la centralita corporativa, con notificación legal al interlocutor | 50-200 €/mes |
| Sistema anti-spoofing | Implementación de STIR/SHAKEN u otros protocolos de verificación de identidad de llamada | Variable (depende del operador) |
| Detección de deepfake en tiempo real | Soluciones como Pindrop Pulse para centros de atención al cliente | Desde 5.000 €/año |
| Autenticación multifactor para pagos | Token físico, app de autenticación, código SMS + email para autorizar transferencias | 100-500 €/empleado/año |
| Segmentación de información | Limitar la información pública sobre la estructura de mando, capacidad de pago y procedimientos internos | Gratuito (política) |
Plan de respuesta ante incidentes
Toda empresa debería tener un plan de respuesta específico para incidentes de fraude con deepfake de voz, integrado en su plan general de gestión de incidentes de ciberseguridad:
Detección y contención inmediata (0-30 minutos):
- Si un empleado sospecha que ha recibido una llamada con voz clonada: colgar inmediatamente y comunicar al responsable de seguridad.
- Si ya se ha ejecutado una transferencia: contactar con el banco inmediatamente para solicitar el bloqueo o reversal de la operación. El tiempo es crítico: la mayoría de los bancos tienen una ventana de 1-4 horas para revertir transferencias internacionales.
- Preservar toda la evidencia: no borrar registros de llamadas, no eliminar correos asociados, activar la retención de logs en la centralita.
Notificación (30 minutos - 2 horas):
- Notificar a la dirección de la empresa.
- Contactar con el departamento legal.
- Preparar la denuncia ante las fuerzas de seguridad (Policía Nacional o Guardia Civil).
- Si la empresa tiene seguro de ciberriesgo: notificar a la aseguradora dentro del plazo establecido en la póliza.
Investigación (2-48 horas):
- Contactar con un perito informático forense para la adquisición y análisis de las evidencias digitales.
- Obtener los registros completos de la centralita telefónica para el período relevante.
- Verificar con el operador de telefonía el origen real de la llamada (si se sospecha spoofing).
- Recopilar toda la documentación: emails, capturas de pantalla, registros de transferencias, grabaciones si existen.
Comunicación (48 horas - 1 semana):
- Informar internamente a los empleados afectados y al conjunto de la organización.
- Evaluar la necesidad de comunicación externa (clientes, proveedores, reguladores).
- Si se trata de datos personales: evaluar la obligación de notificación a la AEPD en virtud del RGPD (72 horas desde el conocimiento de la brecha si afecta a datos personales).
Recuperación y mejora (1-4 semanas):
- Implementar las medidas preventivas que habrían impedido el incidente (si no estaban ya implementadas).
- Realizar una sesión de «lessons learned» con los equipos afectados.
- Actualizar los procedimientos de autorización de pagos.
- Programar formación específica sobre deepfakes de voz para el personal de riesgo.
Evaluación de vulnerabilidad corporativa
Las empresas pueden evaluar su nivel de exposición al riesgo de fraude con deepfake de voz mediante una evaluación de vulnerabilidad que considere los siguientes factores:
| Factor de riesgo | Alto riesgo | Bajo riesgo |
|---|---|---|
| Exposición vocal del CEO | Muchos vídeos públicos, pódcasts, conferencias | Perfil público bajo, poca presencia mediática |
| Procedimientos de autorización | Una sola persona puede autorizar pagos grandes | Doble autorización obligatoria para todos los pagos |
| Verificación de identidad | Solo por teléfono/email | Multichannel con palabra clave secreta |
| Formación del personal | Sin formación sobre deepfakes | Formación trimestral con simulacros |
| Tecnología de detección | Sin herramientas de detección | Pindrop o similar en el contact center |
| Plan de respuesta | Inexistente | Documentado, probado y actualizado |
| Cultura de seguridad | «No se cuestiona al jefe» | Se fomenta la verificación de instrucciones inusuales |
| Proveedores y terceros | Sin verificación de cambios de datos bancarios | Protocolo de verificación presencial o multichannel |
Formación y concienciación
| Acción | Frecuencia | Contenido |
|---|---|---|
| Sesiones de concienciación | Trimestral | Ejemplos reales de deepfakes de voz, demostración en vivo de clonación, procedimiento de verificación |
| Simulacros de ataque | Semestral | Llamadas simuladas con voz clonada del CEO para evaluar la respuesta del equipo financiero |
| Actualización de protocolos | Anual | Revisión de los protocolos de autorización de pagos a la luz de las nuevas amenazas |
| Comunicación interna | Continua | Boletín de seguridad con alertas sobre nuevos tipos de estafa detectados |
Protección mediante seguros de ciberriesgo
Las pólizas de seguro de ciberriesgo son una capa adicional de protección financiera que puede mitigar el impacto económico de un fraude con deepfake de voz:
Coberturas habituales:
- Fraude por ingeniería social: cubre pérdidas económicas resultantes de transferencias autorizadas por un empleado que fue engañado mediante técnicas de ingeniería social (incluido el deepfake de voz). Es la cobertura más relevante.
- Fraude electrónico: cubre pérdidas por acceso no autorizado a sistemas informáticos.
- Gastos de respuesta a incidentes: cubre los costes de investigación forense, asesoría legal, comunicación de crisis y notificación a afectados.
- Daño reputacional: algunas pólizas cubren los costes de gestión de la reputación tras un incidente público.
Puntos a verificar en la póliza:
- ¿La cobertura de «fraude por ingeniería social» incluye explícitamente el fraude con deepfake de voz, o solo cubre el phishing por email?
- ¿Cuál es el límite de indemnización para ingeniería social? (a menudo es significativamente inferior al límite general de la póliza).
- ¿La póliza exige que la empresa tenga implementados ciertos controles de seguridad como condición de cobertura? (doble autorización, protocolos de verificación).
- ¿Cuál es el plazo de notificación del siniestro? (típicamente 24-72 horas desde el conocimiento del incidente).
- ¿La póliza cubre los costes del perito informático forense?
Coste orientativo: Las pólizas de ciberriesgo para PYMEs españolas oscilan entre 800 y 5.000 euros anuales, dependiendo de la facturación, el sector y los límites de cobertura. Para empresas medianas, el rango es de 3.000 a 20.000 euros anuales. Dado que una sola estafa con deepfake puede generar pérdidas de cientos de miles de euros, el seguro de ciberriesgo representa una inversión con un ROI potencialmente muy alto.
Auditoría de seguridad frente a deepfakes
Las empresas que quieran evaluar su nivel real de exposición al riesgo pueden contratar una auditoría de seguridad específica para deepfakes de voz:
Fase 1 — Evaluación de exposición vocal:
- Inventariar todo el material de audio/vídeo público de los directivos de la empresa.
- Evaluar la facilidad con la que un atacante podría obtener muestras de voz de calidad.
- Verificar la presencia de vídeos corporativos, pódcasts, webinars y apariciones mediáticas.
Fase 2 — Test de penetración (con autorización):
- Generar un clon de la voz del CEO utilizando material público.
- Realizar una llamada de prueba al departamento financiero (con conocimiento de la dirección, pero sin avisar al equipo).
- Evaluar la respuesta del equipo: ¿ejecutaron la «solicitud»? ¿Verificaron por otro canal? ¿Alertaron a seguridad?
Fase 3 — Evaluación de controles:
- Revisar los procedimientos de autorización de pagos.
- Verificar la existencia de protocolos de verificación de identidad.
- Evaluar el sistema de grabación de llamadas.
- Revisar la formación del personal.
Fase 4 — Recomendaciones y plan de acción:
- Informe con las vulnerabilidades detectadas.
- Plan de acción priorizado con medidas a implementar a corto, medio y largo plazo.
- Presupuesto estimado para cada medida.
El ROI de la prevención
El coste de implementar todas las medidas preventivas descritas es de unos pocos miles de euros al año. El coste medio de un fraude del CEO exitoso en Europa es de 115.000 euros según datos de Europol y el FBI IC3 [15]. Las empresas españolas que invierten en prevención están protegiendo una media de 50 a 100 veces el coste de las medidas. Y esto sin contar el daño reputacional, la pérdida de confianza de clientes y las posibles responsabilidades legales derivadas de no haber implementado medidas de seguridad razonables.
Protección para particulares
Los ciudadanos particulares son cada vez más objetivo de estafas con deepfake de voz, especialmente a través de las estafas de emergencia familiar y la suplantación de empleados bancarios.
La protección personal frente a los deepfakes de voz se articula en tres niveles complementarios:
- Prevención (reducir la probabilidad de ser atacado): limitar la exposición de la voz, reducir la superficie de ataque.
- Detección (identificar un ataque cuando ocurre): conocer las señales de alerta, aplicar protocolos de verificación.
- Respuesta (actuar correctamente si se ha sido víctima): preservar evidencias, contactar con las autoridades, minimizar el daño.
La mayoría de las personas solo piensan en la prevención (y a menudo la subestiman). Pero la detección y la respuesta son igualmente críticas: dado que la prevención nunca es perfecta, saber qué hacer cuando suena el teléfono con una voz familiar pidiendo dinero puede ser la diferencia entre perder tus ahorros o no.
Reglas de oro contra los deepfakes de voz
Establece una palabra clave familiar: reúne a tu familia y acordad una palabra o frase secreta que solo vosotros conozcáis. Debe ser algo no obvio (no el nombre de la mascota ni la fecha de cumpleaños) y fácil de recordar. Si alguien llama diciendo ser un familiar y no puede proporcionar la palabra clave cuando se le pide, cuelga inmediatamente y llama tú directamente al familiar en cuestión.
Desconfía de toda llamada urgente que pida dinero: ningún banco, empresa, organismo público o familiar legítimo te exigirá una transferencia inmediata sin posibilidad de verificación. La urgencia artificial es la herramienta principal de la ingeniería social.
Verifica siempre por otro canal: si recibes una llamada sospechosa del «banco», de un «familiar en apuros» o de cualquier persona que solicite dinero o datos personales, cuelga y llama tú directamente al número oficial (almacenado en tu agenda o buscado en la web oficial de la entidad, no el que te dieron en la llamada).
No envíes dinero bajo presión: ninguna situación legítima requiere que envíes dinero en los próximos cinco minutos. Tómate siempre el tiempo necesario para verificar. Si la persona al teléfono insiste en que no tienes tiempo para verificar, es casi con total seguridad una estafa.
Reduce tu huella vocal: limita la exposición de tu voz en plataformas públicas. Configura la privacidad de tus stories de Instagram y TikTok. Evita publicar mensajes de voz largos en grupos de WhatsApp públicos o semipúblicos. Si participas en pódcasts o vídeos públicos, sé consciente de que estás proporcionando material para una posible clonación.
Graba las llamadas sospechosas: si tu teléfono lo permite (y la legislación de tu jurisdicción lo autoriza para defensa de tus derechos), activa la grabación de cualquier llamada que te parezca sospechosa. Esa grabación puede ser analizada posteriormente por un perito informático para determinar si contenía voz sintética.
Desconfía del identificador de llamada: el número que aparece en tu pantalla cuando recibes una llamada puede ser falsificado (spoofing telefónico). Que aparezca el número de tu banco o de un familiar no garantiza que sea quien dice ser.
Informa a personas vulnerables: las personas mayores y los adolescentes son especialmente vulnerables a estas estafas. Habla con tus padres, abuelos e hijos sobre el riesgo de los deepfakes de voz y establece protocolos de verificación con ellos.
Reporta los intentos: si recibes una llamada de estafa con voz clonada, denuncia ante la Policía Nacional (091), la Guardia Civil (062) o a través de la línea de ayuda del INCIBE (017). Cada denuncia contribuye a mejorar la respuesta de las fuerzas de seguridad.
Actúa rápido si has sido víctima: si has realizado una transferencia como resultado de una estafa con deepfake de voz, contacta inmediatamente con tu banco para intentar revertir la operación, denuncia ante la policía y contacta con un perito informático para preservar las evidencias digitales.
Guía para personas mayores
Las personas mayores son un colectivo especialmente vulnerable a las estafas con deepfake de voz, por varias razones:
- Menor familiaridad con la IA: pueden no ser conscientes de que la tecnología de clonación de voz existe.
- Mayor confianza en la llamada telefónica: generaciones que crecieron con el teléfono como medio de comunicación principal tienden a confiar más en la voz que las generaciones digitales.
- Mayor aislamiento social: el deseo de contacto con hijos y nietos puede hacer que reaccionen emocionalmente de forma más intensa ante una llamada de «emergencia familiar».
- Mayor capacidad de ahorro: en muchos casos, disponen de ahorros significativos que los convierten en objetivos atractivos.
Consejos específicos para proteger a personas mayores:
Explicar la amenaza de forma sencilla: «Hoy en día, los estafadores pueden imitar la voz de cualquier persona usando ordenadores. Si alguien te llama diciendo ser yo y te pide dinero, cuelga y llámame tú al número que tienes guardado.»
Establecer la palabra clave familiar: hacerlo de forma presencial, no por teléfono. La palabra debe ser fácil de recordar pero difícil de adivinar.
Crear una tarjeta visible: escribir junto al teléfono una tarjeta con las reglas básicas: «NUNCA envíes dinero por teléfono. SIEMPRE llama tú al número que tienes guardado para verificar. NUNCA des contraseñas ni datos bancarios por teléfono.»
Configurar el teléfono: activar el filtrado de llamadas si el teléfono lo permite, bloquear números internacionales desconocidos, instalar una aplicación de detección de spam como Hiya si utiliza un smartphone.
Realizar simulacros: practicar periódicamente la situación de recibir una llamada sospechosa y la respuesta correcta (colgar, verificar).
Cómo actuar si has sido víctima
No te culpes: las estafas con deepfake de voz están diseñadas para engañar a cualquiera. Si la voz era la de un ser querido o la de tu jefe, tu reacción fue la natural. No eres tú quien ha fallado; es la tecnología la que ha sido utilizada contra ti.
Contacta inmediatamente con tu banco: si realizaste una transferencia, llama al servicio de atención de urgencias de tu banco (disponible 24/7) para intentar bloquear o revertir la operación. Cuanto antes actúes, más posibilidades hay de recuperar el dinero.
Preserva todas las evidencias: no borres el registro de llamadas, los mensajes, los emails ni ningún dato relacionado con la estafa. Si grabaste la llamada, no borres la grabación. Si recibiste un mensaje de voz, no lo elimines.
Denuncia ante las fuerzas de seguridad: acude a una comisaría de Policía Nacional o a un puesto de la Guardia Civil para presentar una denuncia formal. Aporta toda la documentación disponible: registros de llamadas, comprobantes de transferencia, capturas de pantalla.
Contacta con un perito informático forense: para preservar profesionalmente las evidencias digitales y elaborar un informe pericial que pueda servir como prueba en el procedimiento judicial. Un perito puede analizar la grabación (si existe) y determinar si era un deepfake, así como rastrear información técnica sobre el origen de la llamada.
Informa al INCIBE: llama al 017 (línea de ayuda en ciberseguridad del INCIBE), donde pueden orientarte sobre los pasos a seguir y registrar el incidente para las estadísticas nacionales.
Comunica a tu entorno: informa a familiares, amigos y colegas de lo ocurrido para que estén alerta ante posibles intentos similares. Tu experiencia puede evitar que otros caigan en la misma trampa.
Señales que delatan un deepfake de voz durante una llamada
Aunque la tecnología mejora constantemente, los deepfakes de voz actuales aún presentan indicios que un oyente atento puede percibir:
Señales de alerta durante una llamada
- Respiración ausente o artificial: la persona al teléfono parece no respirar entre frases, o sus respiraciones suenan mecánicas y repetitivas.
- Entonación plana en frases largas: la voz pierde naturalidad en oraciones complejas, manteniendo un tono demasiado uniforme.
- Pausas artificiales: los silencios entre frases son demasiado regulares, sin la variabilidad natural del habla humana.
- Respuestas lentas o evasivas: si el atacante utiliza TTS (en lugar de conversión de voz en tiempo real), puede haber un retardo notable entre tu pregunta y su respuesta mientras genera el audio.
- Incapacidad para improvisar: si pides algo inesperado (que cante una canción, que repita una frase con una emoción diferente, que pronuncie una palabra inventada), un sistema de TTS puede tener dificultades.
- Ruido de fondo inconsistente: el ruido ambiental cambia bruscamente o es extrañamente uniforme.
- La persona evita las preguntas de verificación: si preguntas la palabra clave familiar, detalles personales específicos o referencias a eventos recientes compartidos, la persona esquiva la respuesta o da respuestas vagas.
El futuro: deepfakes de voz en tiempo real y más allá
Contexto: la evolución acelerada
Para apreciar la velocidad del cambio, consideremos que:
- En 2020, la clonación de voz era una curiosidad académica que requería horas de audio y semanas de entrenamiento.
- En 2022, se necesitaban minutos de audio y horas de entrenamiento.
- En 2024, 3 segundos de audio y ningún entrenamiento.
- En 2026, la tecnología es indistinguible del habla natural y está disponible de forma gratuita.
En solo seis años, la tecnología ha pasado de requerir un equipo de investigadores con acceso a infraestructura de computación de alto rendimiento a estar al alcance de cualquier persona con un navegador web. Este ritmo de progreso no tiene precedentes en la historia de la seguridad informática.
La pregunta relevante no es si la tecnología va a mejorar (lo hará), sino cómo de rápido va a mejorar y qué nuevas amenazas va a habilitar. Basándonos en la trayectoria observada y en las tendencias de investigación publicadas, podemos proyectar las siguientes evoluciones.
El estado actual: llamadas en tiempo real con voz clonada
Ya no hablamos de un riesgo futuro. Según un informe de NCC Group publicado en septiembre de 2025, es posible crear deepfakes de audio convincentes en tiempo real utilizando una combinación de herramientas disponibles públicamente y hardware asequible [35].
El sistema de deepfake en tiempo real de NCC Group, una vez entrenado, puede activarse con solo pulsar un botón a través de una página web con un botón de inicio. NCC Group utilizó el cambiador de voz junto con otras técnicas, como la suplantación de identificador de llamadas, para hacerse pasar por individuos, y casi todas las llamadas funcionaron, con los objetivos creyendo que estaban hablando con la persona suplantada.
Esto significa que en 2026, un criminal puede:
- Obtener 10 segundos de audio de su objetivo.
- Entrenar un modelo de conversión de voz en menos de una hora.
- Llamar a la víctima utilizando spoofing de número.
- Mantener una conversación natural en tiempo real con la voz clonada.
- Responder a preguntas, improvisar, expresar emociones.
La diferencia con un TTS pregrabado es fundamental: el atacante puede interactuar de forma dinámica, adaptándose a las respuestas de la víctima, respondiendo a preguntas inesperadas y expresando emociones coherentes con el contexto. Esto hace que la detección por parte de la víctima sea extremadamente difícil.
2026 y más allá: lo que viene
Según investigadores citados por Fortune y Gizmodo, estas son las tendencias que definirán los próximos años [12] [36]:
Deepfakes multimodales en tiempo real: la convergencia de deepfakes de voz y vídeo permitirá crear «actores sintéticos interactivos» capaces de participar en videollamadas en tiempo real, reaccionando a las personas con caras, voces y gestos que se adaptan instantáneamente. El caso de Arup fue un anticipo; en 2027-2028, esta capacidad estará al alcance de cualquiera.
Deepfakes emocionales adaptativos: los sistemas futuros no solo replicarán la voz, sino que adaptarán el tono emocional en tiempo real basándose en el análisis del estado emocional de la víctima. Si detectan que la víctima duda, aumentarán la presión emocional; si detectan que la víctima se asusta, modularán el tono para tranquilizar.
Agentes de estafa autónomos: la combinación de grandes modelos de lenguaje (LLM) con clonación de voz en tiempo real creará «agentes de estafa» completamente autónomos: bots que pueden mantener conversaciones telefónicas complejas, adaptar su discurso, responder a objeciones y consumar estafas sin ninguna intervención humana.
Escala masiva: con agentes autónomos, un solo criminal puede lanzar simultáneamente miles de estafas telefónicas personalizadas, cada una con la voz clonada de un familiar, jefe o empleado bancario diferente. Algunos grandes minoristas ya reportan más de 1.000 llamadas de estafa generadas por IA al día [12].
Watermarking como contramedida: la implementación del AI Act obligará a los proveedores legítimos a incorporar watermarks inaudibles en el audio generado. Sin embargo, los criminales utilizarán herramientas de código abierto que no incorporan watermarks, o eliminarán las marcas de agua del audio generado con herramientas comerciales.
La carrera armamentística: generación vs. detección
Existe una dinámica de carrera armamentística entre los sistemas de generación y los de detección de deepfakes de voz. Cada avance en la calidad de los clones provoca una respuesta en las herramientas de detección, y viceversa.
La investigación académica está respondiendo al desafío. El ASVspoof Challenge en su quinta edición (2024) recibió 53 participaciones de equipos de todo el mundo, con los mejores modelos alcanzando tasas de error inferiores al 3% [31]. La tendencia dominante es el uso de modelos de aprendizaje auto-supervisado (SSL) como extractores de características, combinados con clasificadores neuronales ligeros.
Sin embargo, la ventaja sigue estando del lado de los atacantes por varias razones:
Asimetría de datos: los generadores se entrenan con enormes cantidades de datos de habla; los detectores necesitan datos de deepfakes para aprender, pero cada nuevo generador produce deepfakes con características diferentes.
Un solo fallo es suficiente: un detector necesita funcionar el 100% del tiempo; un atacante solo necesita que falle una vez para consumar la estafa.
Innovación más rápida: las herramientas de generación se actualizan semanalmente en plataformas como Hugging Face; los detectores necesitan ciclos de investigación, validación y despliegue más largos.
El canal telefónico como ecualizador: la compresión del audio por la red telefónica degrada las señales que los detectores utilizan, nivelando el campo a favor de los atacantes.
Impacto en la confianza social
Más allá de las pérdidas económicas directas, los deepfakes de voz tienen un impacto corrosivo en la confianza social. Cuando cualquier llamada telefónica puede ser una fabricación, se erosiona la confianza en las comunicaciones telefónicas como medio de interacción humana. Esto tiene consecuencias a múltiples niveles:
A nivel personal: las personas pueden volverse excesivamente desconfiadas de las llamadas telefónicas, incluso legítimas. Los abuelos que no contestan cuando sus nietos llaman de verdad porque temen que sea una estafa. Los empleados que no responden a instrucciones legítimas de sus superiores porque sospechan de cada llamada.
A nivel empresarial: los procesos de negocio que dependen de la comunicación telefónica (confirmaciones verbales, instrucciones de pago, negociaciones) necesitan ser rediseñados con mecanismos de verificación adicionales, lo que añade fricción y ralentiza las operaciones.
A nivel judicial: la admisibilidad de las grabaciones de audio como prueba se complica. Los abogados defensores pueden cuestionar la autenticidad de cualquier grabación incriminatoria alegando que podría ser un deepfake, incluso cuando es auténtica. Esto se conoce como el «dividendo del mentiroso» (liar’s dividend): el mero hecho de que los deepfakes existan permite a los acusados cuestionar evidencia legítima.
A nivel democrático: la posibilidad de fabricar declaraciones de políticos, líderes empresariales o figuras públicas con voz clonada amenaza la integridad del debate público. El caso de las robocalls con la voz de Biden en New Hampshire fue un anticipo de lo que podría convertirse en una herramienta habitual de manipulación electoral.
Tecnologías emergentes de defensa
Frente a estas amenazas, la investigación y la industria están desarrollando contramedidas:
Criptografía de proveniencia de contenido: la Content Authenticity Initiative (C2PA), impulsada por Adobe, Microsoft, Intel y la BBC, está desarrollando estándares técnicos para firmar criptográficamente el contenido multimedia en el momento de su creación, creando una cadena de custodia digital verificable desde la cámara/micrófono hasta el consumidor final. Si un audio tiene una firma C2PA válida de un dispositivo de grabación verificado, se puede confiar en su autenticidad. Si no la tiene, es sospechoso.
Marcas de agua inaudibles (audio watermarking): los proveedores de herramientas de clonación pueden incorporar marcas de agua imperceptibles para el oído humano pero detectables por algoritmos específicos. El AI Act obliga a los proveedores a implementar estas marcas. Sin embargo, las herramientas de código abierto no están obligadas (ni obligarlas sería efectivo), y técnicas de procesamiento de señal pueden eliminar o degradar las marcas de agua existentes.
Autenticación multimodal adaptativa: sistemas que combinan verificación de voz con otros factores de identidad (biometría facial, análisis de comportamiento, geolocalización, contexto de la comunicación) para crear un perfil de autenticación multidimensional que es exponencialmente más difícil de falsificar que la voz sola.
Detección federada: modelos de detección de deepfakes entrenados de forma colaborativa entre múltiples organizaciones sin compartir datos sensibles, permitiendo a los detectores beneficiarse de la exposición a más tipos de deepfakes sin comprometer la privacidad de los datos de cada organización.
No obstante, hay razones para el optimismo moderado:
- Las técnicas de detección basadas en patrones de habla (respiración, pausas, disfluencias) son inherentemente más robustas que las basadas en artefactos espectrales, porque atacan aspectos del habla que son difíciles de modelar computacionalmente.
- La autenticación multimodal (combinar verificación de voz con otros factores) reduce drásticamente el riesgo.
- La concienciación de la población es la defensa más efectiva: si la víctima sabe que los deepfakes de voz existen y aplica protocolos de verificación, el ataque fracasa independientemente de la calidad del deepfake.
- La regulación (AI Act) está creando un marco que obligará a los proveedores a implementar salvaguardas.
- La colaboración público-privada entre empresas de seguridad, fuerzas del orden e investigadores académicos está creando bases de datos compartidas de deepfakes que mejoran continuamente los detectores.
Línea temporal: evolución esperada 2026-2030
| Año | Generación (ataques) | Detección (defensa) | Regulación |
|---|---|---|---|
| 2026 | Deepfakes de voz indistinguibles, VC en tiempo real accesible | Pindrop Pulse 99%, detectores SSL 97%+ | AI Act art. 50 entra en vigor (agosto) |
| 2027 | Agentes de estafa autónomos (LLM + TTS), deepfake multimodal en tiempo real | Detección federada, C2PA para audio | Primeras sanciones bajo AI Act |
| 2028 | Deepfakes adaptativos con emoción dinámica, escala masiva automatizada | IA anti-deepfake en tiempo real integrada en smartphones | Regulación específica de deepfakes en España |
| 2029 | Deepfakes adversariales de segunda generación | Autenticación post-cuántica, biometría conductual avanzada | Marco internacional coordinado (Interpol/Europol) |
| 2030 | Generación indistinguible incluso bajo análisis forense | Enfoque de «zero trust» en comunicaciones: toda llamada es sospechosa por defecto | Integración completa de watermarking en infraestructura |
Implicaciones para la práctica forense futura
Para los peritos informáticos forenses, el futuro de los deepfakes de voz plantea desafíos profesionales significativos:
Formación continua obligatoria: la velocidad de evolución de los modelos de generación exige una actualización constante de los conocimientos y herramientas del perito. Un perito que no se mantiene al día con los últimos modelos de síntesis y las últimas técnicas de detección puede emitir conclusiones incorrectas.
Inversión en herramientas: las herramientas de detección basadas en IA requieren acceso a hardware potente (GPUs), suscripciones a servicios comerciales (Resemble Detect, Pindrop) y tiempo para entrenar y validar modelos propios. Esta inversión es cada vez más necesaria para mantener la competencia profesional.
Estándares de calidad: la comunidad forense necesita desarrollar estándares específicos para el análisis de deepfakes de audio, incluyendo protocolos validados, métricas de rendimiento consensuadas y programas de certificación. Organizaciones como ENFSI (European Network of Forensic Science Institutes) y la SWGDE (Scientific Working Group on Digital Evidence) están trabajando en ello, pero los estándares aún no están formalizados.
Colaboración interdisciplinar: el análisis de deepfakes de voz requiere conocimientos que cruzan múltiples disciplinas: acústica, fonética, procesamiento de señal, aprendizaje profundo, lingüística forense y derecho procesal. El perito del futuro necesitará un perfil interdisciplinar o trabajar en equipos que integren estas competencias.
El riesgo del «dividendo del mentiroso»: a medida que los deepfakes se generalizan, los abogados defensores utilizarán cada vez más el argumento de que «cualquier grabación puede ser un deepfake» para desacreditar evidencia legítima. El perito forense tendrá que estar preparado para demostrar no solo que un audio es un deepfake cuando lo es, sino también para confirmar la autenticidad de grabaciones genuinas que sean cuestionadas.
Recursos adicionales para profesionales
Para abogados
Si eres abogado y necesitas orientación sobre deepfakes de voz en el contexto de un caso:
- Cuándo solicitar un peritaje: siempre que una grabación de audio sea prueba relevante en un procedimiento y exista la más mínima posibilidad de que sea sintética o manipulada. También cuando la parte contraria cuestione la autenticidad de una grabación que tú aportas.
- Qué solicitar al perito: especificar claramente las cuestiones que se plantean (autenticidad, identificación del hablante, detección de manipulación). Proporcionar todo el material disponible, incluidas muestras de referencia del hablante.
- Plazos: un análisis forense completo requiere 2-5 días laborables. Planificar con antelación si hay plazos procesales.
- Coste: orientativamente, un peritaje de autenticidad de audio se sitúa entre 800 y 2.500 euros, dependiendo de la complejidad. La ratificación en vista oral tiene un coste adicional.
Para responsables de ciberseguridad (CISO)
Si eres responsable de ciberseguridad de una organización:
- Evaluación de riesgo: incorporar los deepfakes de voz al análisis de riesgos de la organización, con especial atención al fraude del CEO y al vishing.
- Controles técnicos: evaluar la implementación de soluciones de detección de deepfakes en el contact center y en las líneas telefónicas corporativas.
- Controles procedimentales: asegurar que existen protocolos de doble autorización y doble canal para todas las operaciones financieras.
- Formación: incluir los deepfakes de voz en el programa de concienciación de seguridad de la organización.
- Incident response: actualizar el plan de respuesta a incidentes para incluir el escenario de fraude con deepfake de voz.
- Seguro: verificar que la póliza de ciberriesgo cubre específicamente el fraude por ingeniería social con deepfakes.
Para fuerzas de seguridad
Si perteneces a una unidad de ciberdelincuencia o investigación de fraudes:
- Preservación de evidencia: solicitar al denunciante que preserve toda la evidencia digital sin manipularla (grabaciones, registros de llamadas, mensajes).
- Análisis forense: derivar las grabaciones de audio sospechosas a un perito especializado en análisis forense de audio.
- Cooperación internacional: si el ataque procede del extranjero, activar mecanismos de cooperación (Europol, Interpol, MLAT).
- Rastreo financiero: seguir el rastro del dinero a través de las cuentas intermediarias, que a menudo conduce a mulas financieras identificables.
- Inteligencia: compartir los indicadores de compromiso (IOCs) —números de teléfono VoIP utilizados, cuentas bancarias de destino, patrones de ataque— con otras unidades y con centros de intercambio de inteligencia (como INCIBE-CERT).
Preguntas frecuentes
¿Es legal clonar la voz de una persona con IA?
En España, la voz se considera un dato biométrico protegido por el RGPD (artículo 9). Clonar la voz de una persona sin su consentimiento explícito constituye un tratamiento ilícito de datos personales, sancionable con multas de hasta 20 millones de euros o el 4% de la facturación global anual. Si además se utiliza con fines de estafa o suplantación de identidad, se incurre en los delitos tipificados en los artículos 248 (estafa) y 401 (usurpación de estado civil) del Código Penal. Incluso con consentimiento, el uso de la voz clonada está limitado a los fines para los que se otorgó el consentimiento.
¿Puede un perito informático demostrar ante un tribunal que un audio es un deepfake?
Sí. El análisis forense de audio combina técnicas de espectrograma, análisis de formantes, extracción de coeficientes MFCC y LFCC, análisis de patrones de respiración y pausas, y modelos de IA especializados para determinar con alta fiabilidad (superior al 95% en las mejores herramientas, >98% con enfoque de ensemble) si una grabación contiene voz sintética. El resultado se documenta en un informe pericial que cumple con los requisitos procesales de la Ley de Enjuiciamiento Civil y la Ley de Enjuiciamiento Criminal, y el perito puede ratificarlo en vista oral.
¿Cuánto audio necesita un criminal para clonar mi voz?
Los sistemas más avanzados de 2026 pueden generar un clon convincente con tan solo 3 segundos de audio limpio. Con 10 a 30 segundos, la calidad mejora significativamente, capturando mejor las muletillas, la prosodia y las características emocionales de la voz. Esto significa que un simple mensaje de voz de WhatsApp, un vídeo corto en Instagram, el saludo de tu buzón de voz o una intervención de 30 segundos en una reunión virtual pueden proporcionar material más que suficiente.
¿Sirve como prueba en juicio una grabación de una llamada con deepfake?
Sí, siempre que se preserve correctamente la cadena de custodia. La grabación original debe mantenerse íntegra desde el momento de su obtención, con su hash criptográfico (SHA-256) calculado y documentado. No debe editarse, copiarse ni convertirse de formato sin documentar cada paso. Un perito informático puede analizar la grabación y ratificar sus conclusiones ante el tribunal. La jurisprudencia española acepta las grabaciones telefónicas como prueba siempre que se cumplan los requisitos de integridad y cadena de custodia.
¿Existe tecnología para detectar deepfakes de voz en tiempo real durante una llamada?
Sí, aunque está en fase de adopción temprana. Pindrop Pulse puede detectar deepfakes con un 99% de precisión utilizando solo 2 segundos de audio de habla en tiempo real. Empresas como Resemble AI e Hiya también han desarrollado soluciones de detección en tiempo real. Algunas entidades financieras europeas ya están implementando estos sistemas en sus centros de atención telefónica. Para el consumidor individual, Hiya ofrece un servicio de filtrado de llamadas con detección de IA. Sin embargo, estas soluciones aún no están ampliamente disponibles para todos los usuarios.
¿Qué diferencia hay entre un deepfake de voz y un deepfake de vídeo?
Un deepfake de vídeo manipula la imagen facial de una persona para que parezca decir o hacer algo que no hizo. Un deepfake de voz genera o modifica únicamente el audio para replicar la voz de alguien. Los deepfakes de voz son:
- Más fáciles de crear: requieren menos datos (3 segundos vs. minutos de vídeo) y menos potencia computacional.
- Más difíciles de detectar por humanos: nuestro cerebro discrimina mejor las anomalías visuales que las auditivas.
- Más efectivos para estafas: explotan el canal telefónico, donde no hay referencia visual.
- Más peligrosos a escala: pueden automatizarse para miles de llamadas simultáneas.
¿Cómo puedo saber si una llamada que recibí era un deepfake?
Si grabaste la llamada, un perito informático puede analizarla con herramientas forenses de análisis de audio. Si no la grabaste, existen indicios circunstanciales que pueden apoyar la hipótesis:
- El número de origen puede haber sido spoofeado (verifica con tu operador los registros de la llamada).
- La persona que supuestamente llamó puede confirmar que no realizó esa llamada.
- El patrón de la estafa (urgencia, petición de dinero, confidencialidad) coincide con técnicas conocidas.
- Si la llamada se realizó a través de WhatsApp o Telegram, los metadatos de la aplicación pueden proporcionar información adicional.
¿Pueden clonar mi voz a partir de un mensaje de WhatsApp?
Sí. Un mensaje de voz de WhatsApp típico dura entre 3 y 30 segundos, lo que es más que suficiente para los sistemas de clonación de voz actuales. Si un atacante tiene acceso a un grupo de WhatsApp donde participas, o si obtiene acceso al teléfono de uno de tus contactos, puede extraer tus mensajes de voz y utilizarlos como muestra para clonar tu voz.
¿Cuánto cuesta contratar un servicio de clonación de voz en la dark web?
Los precios han bajado drásticamente. Un kit de identidad sintética básico (cara generada + voz clonada + documentos) puede costar tan solo 5 dólares. Un servicio de deepfake de voz en tiempo real puede obtenerse por unos 30-50 dólares por sesión. Los servicios más sofisticados de «CEO Fraud as a Service» oscilan entre 2.000 y 10.000 dólares más una comisión sobre el botín obtenido.
¿Mi banco puede detectar si estoy hablando con un deepfake cuando llamo?
Algunos bancos están comenzando a implementar sistemas de detección de deepfakes en sus centros de atención al cliente. La solución Pindrop Pulse, utilizada por varias entidades financieras internacionales, puede detectar voz sintética con un 99% de precisión en tiempo real. Sin embargo, la adopción en España es todavía limitada. Es más habitual que los bancos utilicen verificación biométrica de voz para confirmar tu identidad (lo que a su vez es vulnerable a deepfakes), que sistemas de detección de deepfakes en las llamadas entrantes.
¿Qué hago si mi empresa ha sido víctima de un fraude con deepfake de voz?
- Contacta inmediatamente con tu banco para intentar bloquear o revertir las transferencias.
- Preserva toda la evidencia: no borres correos, no elimines grabaciones, no formatees teléfonos. Cada dato puede ser crucial.
- Denuncia ante la policía: Policía Nacional (091), Guardia Civil (062), o acude directamente a la comisaría con toda la documentación disponible.
- Contacta con un perito informático: un perito especializado en análisis forense puede preservar las evidencias digitales, analizar las grabaciones de audio y elaborar un informe pericial para el procedimiento judicial.
- Notifica a tu aseguradora: si dispones de un seguro de ciberriesgo, notifica el incidente lo antes posible.
- Comunica internamente: informa a toda la organización del incidente (sin revelar detalles que puedan comprometer la investigación) para evitar nuevos intentos.
¿Los deepfakes de voz se pueden utilizar como prueba falsa en un juicio?
Este es uno de los riesgos más graves desde la perspectiva del derecho procesal. Un deepfake de voz podría utilizarse para fabricar una «grabación» donde una persona confiesa un delito, amenaza a otra persona o realiza declaraciones comprometedoras. La buena noticia es que las técnicas forenses actuales permiten detectar estos intentos de fabricación de pruebas con alta fiabilidad. La mala noticia es que se necesita un perito cualificado para analizarla, y no todos los tribunales son conscientes de la posibilidad de que una grabación de audio sea un deepfake.
¿Cuánto cuesta un peritaje forense de audio para detectar un deepfake?
El coste de un peritaje forense de audio varía según la complejidad del caso, la duración del audio analizado, la disponibilidad de muestras de referencia y si se requiere ratificación en juicio. Como referencia orientativa, un análisis de autenticidad de una grabación de audio de duración moderada (1-5 minutos) se sitúa típicamente entre 800 y 2.500 euros, incluyendo el informe pericial. La ratificación en vista oral tiene un coste adicional. Puedes solicitar una valoración sin compromiso para tu caso concreto.
¿Puede la inteligencia artificial clonar mi voz sin que yo lo sepa?
Sí. La clonación de voz con IA no requiere la cooperación ni el conocimiento de la persona cuya voz se clona. Cualquier audio público o semipúblico donde aparezcas hablando puede ser utilizado como muestra. No hay forma de saber si alguien ha clonado tu voz, a menos que se utilice la voz clonada de una forma que llegue a tu conocimiento (por ejemplo, si alguien de tu entorno recibe una llamada con tu voz y te lo comunica).
¿Los asistentes de voz (Alexa, Siri, Google) pueden ser engañados por un deepfake?
Los asistentes de voz actuales no utilizan verificación biométrica de voz como mecanismo de seguridad (cualquier persona puede dar órdenes a tu Alexa). Sin embargo, los sistemas de banca telefónica que utilizan reconocimiento de voz como factor de autenticación sí pueden ser vulnerables. Europol ha advertido específicamente sobre este riesgo [19].
¿Qué diferencia hay entre voice conversion y text-to-speech?
Son dos enfoques técnicos diferentes. Text-to-Speech (TTS) genera audio a partir de texto escrito: el atacante escribe lo que quiere que «diga» la voz clonada y el sistema lo sintetiza. Voice Conversion (VC) transforma la voz del atacante en tiempo real: el atacante habla con su propia voz y el sistema la convierte en la voz del objetivo. La VC es más peligrosa para estafas interactivas (llamadas en directo) porque preserva la prosodia natural del hablante y permite improvisar.
¿Puedo proteger mi voz de la clonación?
No existe un método infalible para evitar que tu voz sea clonada. Sin embargo, puedes reducir el riesgo:
- Limita la publicación de contenido con tu voz en plataformas públicas.
- Configura la privacidad de tus perfiles en redes sociales.
- Evita dejar mensajes de voz largos en buzones de voz o grupos públicos.
- Sé consciente de que cualquier llamada puede ser grabada.
- Utiliza canales cifrados para comunicaciones sensibles.
La protección más efectiva no es evitar la clonación (que es prácticamente imposible si tienes alguna presencia pública), sino implementar protocolos de verificación que hagan inútil un deepfake: palabras clave, doble canal, doble autorización.
¿Puede la policía rastrear al criminal que usó un deepfake de voz?
La investigación policial puede seguir múltiples líneas:
- Rastreo del número VoIP: si se utilizó spoofing telefónico, los proveedores VoIP pueden proporcionar información sobre la cuenta utilizada (aunque a menudo están registradas con datos falsos).
- Rastreo financiero: las transferencias fraudulentas pasan por cuentas intermediarias (mulas financieras) que pueden ser investigadas.
- Análisis forense del audio: determinar qué herramienta de clonación se utilizó puede proporcionar pistas sobre el atacante.
- Cooperación internacional: si el ataque procede del extranjero, se activan mecanismos de cooperación policial a través de Europol, Interpol o acuerdos bilaterales.
La realidad es que la tasa de resolución de estos delitos es baja, especialmente cuando los atacantes operan desde jurisdicciones no cooperantes. Esto refuerza la importancia de la prevención.
¿Las llamadas de WhatsApp o Telegram son más seguras frente a deepfakes que las llamadas normales?
No necesariamente. Las llamadas por WhatsApp, Telegram o Signal están cifradas de extremo a extremo, lo que impide la interceptación. Sin embargo, un deepfake de voz funciona del lado del emisor: el atacante genera el audio falso y lo envía a través de la plataforma. El cifrado protege la comunicación en tránsito, pero no protege contra un emisor fraudulento. Además, la compresión de audio de estas plataformas (Opus a ~32 kbps) degrada la señal de forma similar al canal telefónico, lo que dificulta la detección de artefactos.
¿Qué debo hacer si encuentro un servicio que ofrece clonar voces sin consentimiento?
Puedes reportarlo a:
- INCIBE (017): el centro de respuesta a incidentes de seguridad informática de España.
- Policía Nacional / Guardia Civil: si el servicio se utiliza para actividades delictivas.
- AEPD (Agencia Española de Protección de Datos): si el servicio procesa datos biométricos (voces) sin consentimiento.
- EU AI Office: a través del canal de denuncias del AI Act, si el proveedor no cumple las obligaciones de transparencia.
- La propia plataforma donde se aloja el servicio (GitHub, Telegram, etc.), mediante su mecanismo de reporte de abuso.
¿Los deepfakes de voz son un problema solo para personas ricas o empresas grandes?
No. Aunque los casos más mediáticos involucran a grandes empresas y cantidades millonarias, las estadísticas muestran que los particulares de cualquier nivel socioeconómico son víctimas habituales. El 25% de los consumidores estadounidenses recibió una llamada con voz generada por IA en los últimos doce meses [17], y las estafas de emergencia familiar se dirigen indiscriminadamente a personas de todos los niveles de renta. Un rescate de «secuestro virtual» de 2.500 euros puede ser devastador para una familia con ingresos medios.
¿Existe alguna aplicación de móvil que detecte deepfakes de voz en tiempo real?
En 2026, las opciones para el consumidor individual son limitadas pero crecientes:
- Hiya: ofrece filtrado de llamadas con capacidad de detección de IA en su versión premium.
- Truecaller: integra cada vez más funciones de detección de spam y estafas con IA.
- DARA (Deep Audio Recognition Assistant): proyecto de investigación que busca crear una app de detección en tiempo real.
Sin embargo, ninguna de estas aplicaciones ofrece una garantía del 100%. La mejor protección sigue siendo la combinación de concienciación + protocolos de verificación.
¿Los operadores de telefonía tienen responsabilidad en las estafas con spoofing + deepfake?
La responsabilidad de los operadores es un área en evolución legal. Los operadores están obligados a implementar medidas técnicas para prevenir el spoofing de caller ID (como STIR/SHAKEN en EE.UU., o medidas equivalentes en Europa bajo el Código Europeo de Comunicaciones Electrónicas). Si un operador no implementa las medidas disponibles para prevenir el spoofing, podría ser considerado corresponsable de las estafas facilitadas por esta negligencia. En la práctica, la mayoría de los operadores europeos están en proceso de implementación de estas medidas, pero la cobertura completa aún no se ha alcanzado.
¿Cuánto tiempo se tarda en detectar un deepfake de voz?
Depende del tipo de análisis:
- Herramientas automatizadas en tiempo real (como Pindrop Pulse): 2 segundos de audio para una primera clasificación.
- Análisis forense preliminar: 2-4 horas para un examen inicial que oriente las líneas de investigación.
- Análisis forense completo con informe pericial: 2-5 días laborables, dependiendo de la complejidad del caso, la duración del audio y la disponibilidad de muestras de referencia.
- Si incluye ratificación en juicio: tiempo adicional según la agenda judicial.
Estadísticas y datos clave actualizados a marzo de 2026
Evolución temporal del fraude con deepfake de voz
| Indicador | 2023 | 2024 | 2025 | 2026 (Q1) | Tendencia |
|---|---|---|---|---|---|
| Volumen global de deepfakes | 500K | 2M | 8M | ~12M (est.) | +900% anual |
| Intentos de fraude con deepfake voz/día (media empresa) | Menos de 1/mes | 1/semana | 7/día | 15+/día | Exponencial |
| Coste medio de un clon de voz (dark web) | 300-20.000$ | 50-500$ | 5-100$ | 5-50$ | Caída 400x |
| Audio mínimo para clon convincente | 5 min | 30 seg | 3 seg | 1-3 seg | -97% en 3 años |
| Precisión del mejor detector | 95% | 97% | 98,5% | 99% | Mejora gradual |
| % consumidores que recibieron voz IA (EE.UU.) | N/D | ~10% | ~20% | 25% | Creciente |
| % víctimas que perdieron dinero (de contactados) | N/D | ~65% | ~73% | 77% | Creciente |
Mapa de amenazas por país
Los países más afectados por deepfakes de voz varían según el tipo de estafa:
Fraude del CEO: Reino Unido, Estados Unidos, Alemania, Singapur, Hong Kong, España. Los países con economías abiertas, muchas empresas multinacionales y uso extendido del inglés como idioma de negocios son los más expuestos.
Estafas de emergencia familiar: Estados Unidos (donde la «grandparent scam» tiene una larga tradición), España (donde el uso intensivo de WhatsApp facilita la obtención de muestras de voz), Italia, Francia.
Vishing bancario: Países Bajos (triplicación de intentos en 2024), Reino Unido, España, Alemania. Los países con sistemas de banca telefónica muy extendidos son los más vulnerables.
Fraude electoral: Estados Unidos (caso Biden/New Hampshire), con riesgo creciente en todos los países democráticos de cara a las elecciones europeas, nacionales y regionales.
Perfil del atacante
Según datos de Europol, Pindrop y análisis de foros de la dark web, los atacantes que utilizan deepfakes de voz se clasifican en:
| Perfil | % estimado | Sofisticación | Objetivo | Pérdida media |
|---|---|---|---|---|
| Crimen organizado transnacional | 40% | Alta | Empresas grandes/medianas | 100K-25M € |
| Grupos de fraude organizados | 30% | Media-alta | PYMEs, particulares acomodados | 10K-500K € |
| Actores individuales oportunistas | 20% | Baja-media | Particulares, personas mayores | 1K-20K € |
| Actores estatales | 5% | Muy alta | Manipulación política, espionaje | N/A |
| Otros (investigadores, curiosos, trolls) | 5% | Variable | Sin ánimo de lucro | Daño reputacional |
Tasas de recuperación de fondos
Un dato relevante para las víctimas es la probabilidad de recuperar el dinero tras un fraude con deepfake de voz:
| Tiempo de reacción | Probabilidad de recuperación | Notas |
|---|---|---|
| Menos de 1 hora | 60-80% | Si el banco puede bloquear la transferencia antes de que se ejecute |
| 1-24 horas | 20-40% | Si los fondos no han sido retirados de la cuenta de destino |
| 1-7 días | 5-15% | Si se activan mecanismos de cooperación bancaria internacional |
| Más de 7 días | Menos del 5% | Los fondos suelen estar ya en criptomonedas o jurisdicciones no cooperantes |
La conclusión es clara: el tiempo de reacción es crítico. Cada minuto que pasa después de ejecutar una transferencia fraudulenta reduce las posibilidades de recuperación. Por eso, la primera acción ante la sospecha de fraude debe ser siempre contactar con el banco.
Glosario técnico rápido
Para facilitar la comprensión de los conceptos técnicos utilizados a lo largo de este artículo, incluimos este glosario de referencia rápida:
| Término | Definición |
|---|---|
| Codec neuronal | Red neuronal que comprime y descomprime audio, convirtiendo las formas de onda en secuencias de tokens discretos (como EnCodec de Meta o SoundStream de Google). |
| Coeficientes MFCC | Mel-Frequency Cepstral Coefficients: representación compacta del espectro de audio que captura las características perceptivamente relevantes de la voz. Estándar en detección de deepfakes. |
| Coeficientes LFCC | Linear Frequency Cepstral Coefficients: similar a MFCC pero en escala de frecuencia lineal. Rendimiento ligeramente superior en detección de deepfakes. |
| Embedding de voz | Vector numérico de alta dimensión que codifica las características únicas de la voz de una persona. Funciona como una «huella digital vocal» matemática. |
| Espectrograma | Representación visual del audio donde el eje X es el tiempo, el eje Y es la frecuencia, y el color/brillo indica la intensidad. Herramienta fundamental del análisis forense de audio. |
| Espectrograma mel | Espectrograma donde las frecuencias están en escala mel (que aproxima la percepción humana de la frecuencia). Es la representación intermedia más utilizada en síntesis de voz moderna. |
| Formantes (F1-F5) | Frecuencias de resonancia del tracto vocal humano que caracterizan los sonidos del habla. Cada persona tiene formantes con valores y patrones de variación únicos. |
| Frecuencia fundamental (F0) | Frecuencia base de vibración de las cuerdas vocales. Determina la percepción de «grave» o «agudo» de una voz. Varía constantemente durante el habla (entonación). |
| GAN (Red Generativa Adversarial) | Arquitectura de aprendizaje profundo con dos redes (generador y discriminador) que compiten entre sí, produciendo resultados cada vez más realistas. HiFi-GAN es el vocoder más usado en clonación. |
| HNR (Harmonic-to-Noise Ratio) | Relación entre los componentes armónicos (periódicos) y el ruido (aperiódico) de la voz. Métrica de calidad vocal útil para detectar síntesis. |
| Jitter | Variación ciclo a ciclo de la frecuencia fundamental. Valores típicos: 0,5-1,5%. Puede ser anómalo en voz sintética. |
| Prosodia | Patrones de entonación, ritmo, acentuación y pausas que caracterizan el habla de una persona. La prosodia es uno de los aspectos más difíciles de replicar con IA. |
| RVQ (Residual Vector Quantization) | Técnica de cuantización utilizada en codecs neuronales que discretiza la representación del audio en múltiples capas de tokens, de grueso a fino. |
| Shimmer | Variación ciclo a ciclo de la amplitud de la voz. Valores típicos: 3-7%. Complementario al jitter como indicador de naturalidad. |
| Spoofing telefónico | Técnica que permite falsificar el identificador de llamada (caller ID) para que una llamada parezca proceder de un número diferente al real. |
| TTS (Text-to-Speech) | Tecnología de síntesis de voz que convierte texto escrito en audio hablado. En el contexto de deepfakes, TTS personalizado genera audio con la voz de una persona específica. |
| VC (Voice Conversion) | Tecnología que transforma la voz de un hablante en la de otro, manteniendo el contenido y la prosodia. Permite conversación en tiempo real con voz clonada. |
| Vocoder | Componente del pipeline de síntesis de voz que convierte representaciones intermedias (espectrogramas mel) en formas de onda de audio audibles. |
| VOT (Voice Onset Time) | Tiempo entre la liberación de una consonante oclusiva y el inicio de la vibración de las cuerdas vocales. Métrica fonética muy consistente por hablante. |
| Watermarking | Inserción de marcas imperceptibles en contenido multimedia para identificar su origen. El AI Act obliga a los proveedores de IA a watermarkear el contenido sintético. |
| Zero-shot | Capacidad de un modelo para realizar una tarea (clonar una voz) sin entrenamiento previo específico, utilizando solo una muestra breve de referencia durante la inferencia. |
Checklist de acción inmediata
Para empresas
Checklist empresarial — Implementar esta semana
- Establecer palabra clave secreta entre CEO, CFO y empleados autorizadores de pagos. Cambiar mensualmente.
- Configurar doble autorización para transferencias superiores a 5.000 euros.
- Implementar principio de doble canal: toda instrucción de pago telefónica debe confirmarse por otro canal.
- Establecer procedimiento de callback: ante solicitudes telefónicas, colgar y llamar al número oficial almacenado.
- Formar al equipo financiero sobre los deepfakes de voz con ejemplos reales.
- Verificar que la centralita graba las llamadas entrantes (con aviso legal al interlocutor).
- Establecer protocolo de verificación de cambios de datos bancarios de proveedores (confirmación presencial o multichannel).
- Crear un plan de respuesta ante incidentes de fraude con deepfake de voz.
- Evaluar la contratación de un servicio de detección de deepfakes para el contact center (Pindrop Pulse o equivalente).
- Revisar la exposición vocal pública de los directivos y evaluar la reducción de contenido de voz accesible.
Para particulares
Checklist personal — Hacer hoy
- Acordar una palabra clave familiar con padres, hijos, hermanos y pareja. Hacerlo en persona.
- Hablar con los familiares mayores sobre el riesgo de deepfakes de voz y la importancia de verificar.
- Revisar la configuración de privacidad de tus perfiles en redes sociales (Instagram, TikTok, Facebook, LinkedIn).
- Guardar el 017 (INCIBE) como contacto en el teléfono para emergencias de ciberseguridad.
- Recordar la regla de oro: NUNCA enviar dinero por teléfono sin verificar por otro canal.
- Si recibes una llamada sospechosa: colgar, verificar, denunciar.
Referencias y fuentes
- Pindrop (2025). 2025 Voice Intelligence and Security Report. https://www.pindrop.com/research/report/voice-intelligence-security-report/
- Sumsub (2025). Identity Fraud Report 2025: The Rise of AI-Powered Fraud. https://sumsub.com/
- DeepStrike (2025). Estimaciones de volumen global de deepfakes 2023-2025. Citado en Views4You Deepfake Database. https://views4you.com/deepfake-database/
- INCIBE (2025). Nuevo método de fraude usando la voz de un familiar creada con inteligencia artificial. https://www.incibe.es/linea-de-ayuda-en-ciberseguridad/casos-reales/nuevo-metodo-de-fraude-usando-la-voz-de-un-familiar-creada-con-inteligencia-artificial
- Policía Nacional / Última Hora (2025). La Policía Nacional alerta sobre una nueva estafa que utiliza inteligencia artificial para clonar voces. https://www.ultimahora.es/xaloc/dudas-respuestas/2025/01/28/2313619/policia-nacional-alerta-sobre-nueva-estafa-utiliza-inteligencia-artificial-para-clonar-voces.html
- Van den Oord, A. et al. (2016). “WaveNet: A Generative Model for Raw Audio”. DeepMind. https://arxiv.org/abs/1609.03499
- Shen, J. et al. (2018). “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”. Google. https://google.github.io/tacotron/publications/tacotron2/
- Betker, J. (2022). “Tortoise TTS: A multi-voice TTS system trained with an emphasis on quality”. GitHub. https://github.com/neonbjb/tortoise-tts
- Wang, C. et al. (2023). “Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers” (VALL-E). Microsoft Research. https://arxiv.org/abs/2301.02111
- Wang, C. et al. (2024). “VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers”. Microsoft Research. https://arxiv.org/abs/2406.05370
- Microsoft Research (2024). “VALL-E X: Speak Foreign Languages with Your Own Voice”. https://www.microsoft.com/en-us/research/project/vall-e-x/
- Fortune (2025). “2026 will be the year you get fooled by a deepfake, researcher says. Voice cloning has crossed the ‘indistinguishable threshold’”. https://fortune.com/2025/12/27/2026-deepfakes-outlook-forecast/
- Cyble (2025). Deepfake-as-a-Service Exploded In 2025: 2026 Threats Ahead. https://cyble.com/knowledge-hub/deepfake-as-a-service-exploded-in-2025/
- Kaspersky (2025). Kaspersky Warns: Deepfake Services Are Now 400 Times Cheaper and More Accessible. https://me-en.kaspersky.com/about/press-releases/kaspersky-warns-deepfake-services-are-now-400-times-cheaper-and-more-accessible
- Europol (2025). EU Serious and Organised Crime Threat Assessment (EU-SOCTA) 2025. https://www.europol.europa.eu/cms/sites/default/files/documents/EU-SOCTA-2025.pdf
- FBI (2025). Public Service Announcement: Criminals Pose as Company Executives in Phone Calls Using AI Voice Cloning. https://www.ic3.gov/
- Hiya (2026). State of the Call Report 2026. Citado en UnboxFuture. https://www.unboxfuture.com/2026/03/the-ai-voice-scam-epidemic-Fooled-by-Deepfakes.html
- Moneywise (2026). Scammers are using deepfakes, ‘urgent’ family emergencies to get your money. Losses could reach $16B by late 2026. https://moneywise.com/news/scammers-are-using-deepfakes-to-mimic-your-familys-face-and-voice-and-losses-could-reach-16b-by-late-2026-can-you-spot-it-before-its-too-late
- Europol (2025). Europol report finds deepfake technology could become staple tool for organised crime. https://www.europol.europa.eu/media-press/newsroom/news/europol-report-finds-deepfake-technology-could-become-staple-tool-for-organised-crime
- CNN (2024). “Finance worker pays out $25 million after video call with deepfake ‘chief financial officer’”. CNN Business, 4 de febrero de 2024. https://www.cnn.com/2024/02/04/asia/deepfake-cfo-scam-hong-kong-intl-hnk
- World Economic Forum (2025). Cybercrime: Lessons learned from a $25m deepfake attack. https://www.weforum.org/stories/2025/02/deepfake-ai-cybercrime-arup/
- Brightside AI (2025). Deepfake CEO Fraud: $50M Voice Cloning Threat to CFOs. https://www.brside.com/blog/deepfake-ceo-fraud-50m-voice-cloning-threat-cfos
- ScamWatch HQ (2025). The $200 Million Deepfake Disaster. https://www.scamwatchhq.com/the-200-million-deepfake-disaster-how-ai-voice-and-video-scams-are-fooling-even-cybersecurity-experts-in-2025/
- Infordisa SOC (2025). Caso de suplantación del CEO con deepvoice en España. https://www.infordisa.com/soc/caso-deepvoice-suplantacion-ceo-espana/
- CaixaBank (2025). Clonación de voz por IA: cómo asegurarte de que hablas con quien crees. https://www.caixabank.com/es/esfera/content/clonacion-voz-identificar-ciberseguridad
- Parlamento Europeo (2025). Scam calls in times of Generative AI. EPRS. https://www.europarl.europa.eu/RegData/etudes/ATAG/2025/777940/EPRS_ATA(2025)777940_EN.pdf
- Javadex (2026). Deepfakes en Empresas: Cómo Protegerte del Fraude con IA. https://www.javadex.es/blog/deepfakes-empresa-como-protegerse-fraude-ia-2026
- ArXiv (2025). Forensic deepfake audio detection using segmental speech features. https://arxiv.org/html/2505.13847v2
- Springer (2024). Pushing the boundaries of deepfake audio detection with a hybrid MFCC and spectral contrast approach. Multimedia Tools and Applications. https://link.springer.com/article/10.1007/s11042-024-19819-z
- ScienceDirect (2025). Deepfake audio detection with spectral features and ResNeXt-based architecture. Knowledge-Based Systems. https://www.sciencedirect.com/science/article/pii/S0950705125007725
- ASVspoof 5 (2024). ASVspoof 5: Crowdsourced Speech Data, Deepfakes, and Adversarial Attacks at Scale. https://arxiv.org/abs/2408.08739
- NQ Abogados Penal (2025). Deepfake y Clonación de voz por IA: Acreditar y denunciar estafa. https://www.nqabogadospenal.com/delitos-informaticos-y-ciberdelincuencia/deepfake-y-clonacion-de-voz-por-ia-como-acreditar-y-denunciar-esta-estafa/
- Reglamento (UE) 2024/1689 del Parlamento Europeo y del Consejo (AI Act). https://artificialintelligenceact.eu/article/50/
- Comisión Europea (2025). Code of Practice on marking and labelling of AI-generated content. https://digital-strategy.ec.europa.eu/en/policies/code-practice-ai-generated-content
- IEEE Spectrum (2025). Real-Time Audio Deepfake Tech Is Here. https://spectrum.ieee.org/real-time-audio-deepfake-vishing
- Gizmodo / University at Buffalo (2026). Deepfakes Leveled up in 2025 — Here’s What’s Coming Next. https://gizmodo.com/deepfakes-leveled-up-in-2025-heres-whats-coming-next-2000703649
- Código Penal español (LO 10/1995, modificada). Artículos 197, 248-250, 264, 390-392, 401, 570 bis-ter.
- RGPD (Reglamento UE 2016/679). Artículos 4.14, 9 (tratamiento de categorías especiales de datos personales, incluidos datos biométricos).
- XTTS (2024). XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model. Interspeech 2024. https://arxiv.org/html/2406.04904v1
- ECPA / INCIBE (2025). Guía de ciberseguridad para empresas: protección frente a fraudes con inteligencia artificial. https://www.incibe.es/
- Müller, N. M. et al. (2024). “Speech is Silver, Silence is Golden: A Survey on Audio Deepfake Detection”. ACM Computing Surveys, 56(11). https://doi.org/10.1145/3651587
- CyberSecureFox (2025). Real-Time Deepfakes Go Cheap: Dark Web Sells Video For $50 And Voice For $30. https://cybersecurefox.com/en/real-time-deepfakes-dark-web-voice-cloning-kyc-bec/
- WeLiveSecurity / ESET (2025). Crecen las estafas que utilizan clonación de voz con Inteligencia Artificial. https://www.welivesecurity.com/es/estafas-enganos/clonacion-voz-inteligencia-artificial-ia/
- Keepnet Labs (2026). Deepfake Statistics & Trends 2026. https://keepnetlabs.com/blog/deepfake-statistics-and-trends
- American Bar Association (2025). The Rise of the AI-Cloned Voice Scam. https://www.americanbar.org/groups/senior_lawyers/resources/voice-of-experience/2025-september/ai-cloned-voice-scam/
- US Norton / NortonLifeLock (2025). Top 5 Ways Scammers Have Used AI and Deepfakes in 2025. https://us.norton.com/blog/online-scams/top-5-ai-and-deepfakes-2025
- Infobae España (2025). La nueva estafa telefónica con Inteligencia Artificial con la que debes tener cuidado. https://www.infobae.com/espana/2025/01/02/la-nueva-estafa-telefonica-con-inteligencia-artificial-con-la-que-debes-tener-cuidado-se-hacen-pasar-un-contacto/
- Infobae Tecno (2026). Cómo saber si una llamada de voz es de inteligencia artificial: señales para detectar un deepfake. https://www.infobae.com/tecno/2026/03/24/como-saber-si-una-llamada-de-voz-es-de-inteligencia-artificial-senales-para-detectar-un-deepfake/
Impacto psicológico en las víctimas de estafas con deepfake de voz
Las estafas con clonación de voz presentan un impacto emocional significativamente mayor que otras formas de fraude digital. La razón es simple: la voz es uno de los elementos más íntimos de la identidad humana, y escuchar a un ser querido pedir ayuda activa respuestas emocionales profundas que anulan el pensamiento crítico.
Fases del impacto psicológico
| Fase | Duración típica | Síntomas | Recomendación |
|---|---|---|---|
| Shock inicial | 0-48 horas | Incredulidad, confusión, negación | No tomar decisiones financieras importantes |
| Culpabilidad | 1-4 semanas | Vergüenza, autoculpa, aislamiento | Recordar que el fraude está diseñado para engañar |
| Ira | 2-8 semanas | Frustración con bancos, policía, tecnología | Canalizar la energía en la denuncia y el proceso |
| Ansiedad persistente | 1-6 meses | Desconfianza ante llamadas, hipervigilancia | Terapia cognitivo-conductual si persiste |
| Recuperación | 3-12 meses | Aceptación gradual, nuevas precauciones | Compartir experiencia para ayudar a otros |
Datos sobre el impacto emocional
Según el estudio de la American Association of Retired Persons (AARP, 2025), las víctimas de estafas con deepfake de voz reportan:
- 84% experimentan ansiedad severa ante llamadas telefónicas durante al menos 3 meses después del incidente.
- 67% desarrollan desconfianza hacia la tecnología en general, reduciendo su uso de servicios digitales.
- 52% sufren problemas de sueño relacionados con el estrés del fraude.
- 41% experimentan deterioro de relaciones familiares, especialmente cuando la voz clonada era la de un familiar.
- 28% requieren apoyo psicológico profesional para superar el trauma.
- 19% reportan síntomas compatibles con estrés postraumático (TEPT).
La doble victimización
Las víctimas de deepfake de voz sufren frecuentemente lo que se denomina doble victimización:
- Primera victimización: El fraude en sí mismo, con la pérdida económica correspondiente.
- Segunda victimización: La incomprensión del entorno (familia, amigos, incluso profesionales del derecho y fuerzas de seguridad) que no comprenden cómo alguien pudo «caer» en una estafa por teléfono. Frases como «¿pero no reconociste que no era tu hijo?» o «tendrías que haberte dado cuenta» perpetúan la vergüenza y dificultan la denuncia.
Datos sobre la doble victimización
Según la Asociación Nacional de Ciberestafas y Manipulación Emocional (ANCEME), solo el 12% de las víctimas de estafas con deepfake de voz denuncia ante las autoridades. El principal motivo: la vergüenza y el miedo a ser juzgados por no haber detectado el engaño.
Recursos de apoyo en España
| Recurso | Teléfono / Web | Horario | Coste |
|---|---|---|---|
| INCIBE - Línea 017 | 017 / WhatsApp 900 116 117 | 8:00-23:00 (365 días) | Gratuito |
| Teléfono de la Esperanza | 717 003 717 | 24 horas | Gratuito |
| ANAR (menores) | 900 20 20 10 | 24 horas | Gratuito |
| Policía Nacional | 091 / denuncias.policia.es | 24 horas | Gratuito |
| Guardia Civil | 062 / guardiacivil.es | 24 horas | Gratuito |
| ANCEME | anceme.org | Horario de oficina | Gratuito |
| Colegio Oficial de Psicólogos | cop.es | Directorio territorial | Variable |
Protocolo de verificación familiar: la «palabra clave» y más allá
Una de las medidas de prevención más eficaces contra las estafas con deepfake de voz es establecer un protocolo de verificación familiar. Este protocolo permite confirmar la identidad de un familiar en situaciones de emergencia sin depender exclusivamente de la voz.
Sistema de palabra clave familiar
Elegir una palabra o frase clave
Seleccionar una palabra o frase que solo conozcan los miembros de la familia. Debe ser algo que no aparezca en redes sociales, no sea predecible y no tenga relación con datos personales públicos. Ejemplos: «mariposa azul», «el gato de la abuela tenía tres patas», «código 42 bravo».
Comunicarla en persona
La palabra clave debe comunicarse exclusivamente en persona, nunca por teléfono, mensajería o email. Si un miembro de la familia vive lejos, se puede enviar por carta postal certificada.
Establecer el protocolo de uso
Acordar que, ante cualquier llamada de emergencia que implique una petición urgente de dinero, la persona que llama debe proporcionar la palabra clave. Si no la conoce o se niega a decirla, colgar inmediatamente y contactar directamente al familiar por otro medio.
Renovar periódicamente
Cambiar la palabra clave cada 6-12 meses, especialmente si algún miembro de la familia ha sufrido un robo de datos o una intrusión en sus cuentas.
Incluir a personas mayores y menores
Asegurarse de que todos los miembros de la familia, incluidos los más vulnerables (personas mayores, adolescentes), conocen y entienden el protocolo. Practicar con simulacros periódicos.
Medidas de verificación adicionales
Además de la palabra clave, se recomienda implementar las siguientes medidas:
| Medida | Descripción | Eficacia |
|---|---|---|
| Llamada de retorno | Ante cualquier petición urgente, colgar y llamar directamente al número conocido del familiar | Muy alta |
| Videollamada de confirmación | Solicitar una videollamada para confirmar la identidad visual (más difícil de falsificar que solo la voz, aunque no imposible) | Alta |
| Pregunta personal | Hacer una pregunta cuya respuesta solo conozca el familiar real (no algo que pueda encontrarse en redes sociales) | Alta |
| Canal alternativo | Contactar a otro familiar o amigo que pueda confirmar la situación del supuesto llamante | Alta |
| Periodo de espera | Nunca realizar transferencias inmediatas; establecer un periodo mínimo de espera de 30 minutos | Media-Alta |
| Límites de transferencia | Configurar límites diarios de transferencia en la banca online que impidan envíos de grandes cantidades sin aprobación adicional | Media |
Protocolo específico para empresas
Las organizaciones deben implementar protocolos más formales para prevenir fraudes tipo «CEO fraud» con deepfake de voz:
Doble autorización: Toda transferencia por encima de un umbral definido (por ejemplo, 5.000 €) requiere autorización de dos personas, preferiblemente por canales diferentes (email + llamada telefónica verificada).
Callback obligatorio: Cualquier solicitud de transferencia urgente recibida por teléfono debe verificarse llamando al número oficial del solicitante registrado en el directorio interno de la empresa, no al número desde el que se recibió la llamada.
Código de autorización rotativo: Establecer códigos de autorización que cambien semanalmente o mensualmente para operaciones financieras sensibles.
Grabación de llamadas autorizadas: Con el consentimiento de todas las partes, grabar las llamadas que autoricen operaciones financieras significativas como medida de evidencia.
Formación trimestral: Realizar sesiones de concienciación trimestrales sobre ingeniería social y deepfakes, incluyendo ejercicios prácticos de simulación.
Caso de éxito: protocolo de verificación
Una empresa española del sector industrial implementó el protocolo de «doble autorización + callback» en enero de 2026 tras asistir a una jornada formativa sobre deepfakes. En febrero, el director financiero recibió una llamada aparentemente del CEO solicitando una transferencia urgente de 85.000 € a un proveedor nuevo. Siguiendo el protocolo, el CFO llamó al CEO a su número habitual: estaba en una reunión y no había realizado ninguna llamada. El intento de fraude fue abortado y denunciado a la Policía Nacional, que confirmó que se trataba de un deepfake de voz creado a partir de una intervención del CEO en un podcast público.
Legislación comparada internacional sobre deepfakes de voz
La regulación de los deepfakes de voz varía enormemente entre jurisdicciones. A continuación, un análisis comparativo de las principales aproximaciones legislativas:
Estados Unidos
- No Fakes Act (2024): Propuesta federal que crearía un derecho federal sobre la voz y la imagen de una persona, prohibiendo la creación de réplicas digitales no autorizadas. Aún en tramitación en el Congreso.
- Legislación estatal: California (AB 2655, 2024), Texas, Illinois y otros estados han aprobado leyes específicas contra deepfakes. California prohibe expresamente el uso de deepfakes en estafas y en el contexto electoral.
- FTC: La Federal Trade Commission ha propuesto una norma que prohibiría el uso de IA para suplantar individuos en llamadas telefónicas comerciales.
Unión Europea
- AI Act (Reglamento UE 2024/1689): Art. 50 exige que los deepfakes sean etiquetados de forma legible por máquina. Desde agosto 2026, toda síntesis de voz deberá incluir metadatos de identificación.
- RGPD: La voz se considera dato biométrico (art. 9), lo que implica que su procesamiento requiere consentimiento explícito o una base legal específica.
- Directiva de servicios audiovisuales: Obliga a las plataformas a adoptar medidas contra la difusión de deepfakes.
Reino Unido
- Online Safety Act (2023): Incluye los deepfakes como contenido dañino que las plataformas deben moderar.
- Sexual deepfakes: Ley específica (2024) que criminaliza la creación y difusión de deepfakes de contenido sexual sin consentimiento.
- Fraud Act 2006: Los deepfakes de voz utilizados para estafas se procesan bajo el delito de «fraud by false representation».
China
- Regulación de síntesis profunda (2023): Obligación de etiquetar todo contenido generado por IA, incluida la voz sintética. Sanciones administrativas por incumplimiento.
- Obligación de consentimiento: Prohibición expresa de usar la voz de una persona para síntesis sin su consentimiento explícito.
Corea del Sur
- Ley de deepfakes (2024): Criminaliza la creación y distribución de deepfakes sin consentimiento. Penas de hasta 5 años de prisión.
| País/Región | Legislación específica deepfakes voz | Penas máximas | Estado |
|---|---|---|---|
| España | CP art. 197, 248, 401 + AI Act | 1-6 años prisión + multa | Aplicación indirecta |
| UE | AI Act art. 50 (etiquetado) | Hasta 35M € o 7% facturación | En vigor parcial (agosto 2026 completo) |
| EEUU (federal) | No Fakes Act (propuesta) | Civil: daños + statutory damages | En tramitación |
| EEUU (California) | AB 2655 | Daños + injunctive relief | En vigor |
| Reino Unido | Online Safety Act + Fraud Act | Hasta 10 años prisión (fraude) | En vigor |
| China | Regulación síntesis profunda | Multas administrativas | En vigor |
| Corea del Sur | Ley de deepfakes 2024 | Hasta 5 años prisión | En vigor |
¿Sospechas que un audio o llamada ha sido manipulado con IA?
Como perito informático forense, analizo grabaciones de audio con técnicas de espectrograma, análisis de formantes y detección de artefactos de compresión para determinar si una voz ha sido clonada o manipulada con IA. Primera consulta gratuita.
Más información




