Análisis Forense

Formante de Audio

Frecuencia de resonancia del tracto vocal (F1, F2, F3) que caracteriza el timbre único de cada hablante. Herramienta forense clave para identificación de locutores y detección de voz sintética (deepfakes), con tasas de detección superiores al MFCC según estudios de 2025.

17 min de lectura

Formante de Audio

77%. Ese es el porcentaje de víctimas de clonación de voz que perdieron dinero tras ser engañadas por una voz sintética, según datos de 2025. Los deepfakes de audio han crecido un 442% en un año, con pérdidas medias por incidente de 500.000 dólares en fraudes CEO. Sin embargo, un estudio publicado en Forensic Science International en 2025 demuestra que los formantes vocálicos, las frecuencias de resonancia únicas de cada persona, son el punto débil de la inteligencia artificial: los modelos de síntesis de voz aún no consiguen replicar con precisión los patrones formánticos individuales, convirtiéndolos en la herramienta forense más prometedora para desenmascarar voces falsas.


Definicion tecnica

Un formante es un pico de concentración de energía acústica en el espectro de frecuencias de un sonido del habla, producido por la resonancia del tracto vocal (faringe, cavidad oral, cavidad nasal, labios). Cada configuración del tracto vocal genera frecuencias de resonancia específicas denominadas F1, F2, F3, F4 y superiores.

Los formantes principales:

FormanteRango frecuencia tipicoDeterminado porFuncion linguistica
F1 (primer formante)250-900 HzApertura mandibular (altura vocal)Distingue vocales abiertas (/a/) de cerradas (/i/, /u/)
F2 (segundo formante)850-2.500 HzPosición anterior-posterior de la lenguaDistingue vocales anteriores (/i/, /e/) de posteriores (/o/, /u/)
F3 (tercer formante)1.800-3.500 HzLongitud del tracto vocal y configuración labialAporta el timbre individual único del hablante
F4 (cuarto formante)3.000-4.500 HzResonancia subglótica y dimensiones laríngeasInformación adicional sobre anatomía del hablante

Diferencia clave entre formantes y frecuencia fundamental (F0):

  • F0 (pitch): Frecuencia de vibración de las cuerdas vocales. Determina si la voz suena grave o aguda. Se puede modificar voluntariamente y los deepfakes la replican con facilidad
  • Formantes (F1-F4): Resonancias del tracto vocal. Dependen de la anatomía física del hablante (longitud del tracto, forma de la mandíbula, posición de la lengua). Son mucho más difíciles de falsificar
Huella vocal unica

Así como cada persona tiene huellas dactilares únicas, la combinación de formantes F1-F4 crea una “huella vocal” específica determinada por la anatomía individual del tracto vocal. Dos personas pueden tener la misma F0 (mismo tono de voz), pero sus formantes serán distintos porque sus tractos vocales tienen dimensiones diferentes.


Como funcionan los formantes en el habla humana

Produccion de formantes

El proceso de generación de formantes sigue el modelo fuente-filtro de la producción del habla:

  1. Fuente (cuerdas vocales): Las cuerdas vocales vibran generando una onda sonora compleja rica en armónicos, con frecuencia fundamental F0
  2. Filtro (tracto vocal): La onda viaja por faringe, cavidad oral y nasal. Cada cavidad actúa como resonador que amplifica ciertas frecuencias (formantes) y atenúa otras
  3. Articulacion: La posición de lengua, mandíbula y labios modifica la geometría del tracto vocal, cambiando las frecuencias de resonancia
  4. Resultado: El sonido que sale de los labios contiene los formantes específicos que identifican cada vocal y caracterizan al hablante individual

Mapa de formantes vocálicos del español

Las cinco vocales del español se distinguen principalmente por F1 y F2:

          F2 alto (anterior)    F2 medio    F2 bajo (posterior)
          ~2.200 Hz             ~1.500 Hz   ~800 Hz
          ┌─────────────────────────────────────────┐
F1 bajo   │  /i/ (F1:300,F2:2200)          /u/ (F1:300,F2:800)  │ (cerradas)
~300 Hz   │                                                       │
          │      /e/ (F1:450,F2:1900)  /o/ (F1:500,F2:900)      │
          │                                                       │
F1 alto   │            /a/ (F1:800,F2:1300)                      │ (abierta)
~800 Hz   │                                                       │
          └─────────────────────────────────────────┘

Valores orientativos para hablante masculino español (varían por individuo, sexo y dialecto):

VocalF1 (Hz)F2 (Hz)F3 (Hz)
/a/750-8501.200-1.4002.400-2.600
/e/400-5001.800-2.0002.500-2.700
/i/270-3202.100-2.4002.800-3.100
/o/450-550800-1.0002.400-2.600
/u/280-340700-9002.300-2.500

Variabilidad individual: por qué los formantes identifican hablantes

La combinación de formantes es única para cada persona porque depende de factores anatómicos individuales:

  • Longitud del tracto vocal: Hombres (17,5 cm promedio) vs mujeres (14,5 cm) produce diferentes frecuencias de resonancia
  • Forma de la mandíbula: Afecta directamente a F1
  • Posición habitual de la lengua: Afecta a F2 (dialectos regionales crean patrones formánticos distintivos)
  • Configuración nasal: Modifica formantes en consonantes nasales
  • Tensión muscular laríngea: Influye en F3 y F4

Formantes y deteccion de deepfakes de voz

Por que los deepfakes fallan en los formantes

La investigación publicada en Forensic Science International (mayo 2025) por expertos en fonética forense demuestra que las características segmentales como los formantes vocálicos superan a las características globales (MFCC, LTFD, LTF0) en la detección de voz sintética.

Razones por las que la IA no replica bien los formantes:

AspectoVoz humana realVoz sintetica (deepfake)
Micro-variaciones F1-F3Fluctuaciones naturales continuas (jitter formántico)Patrones demasiado regulares, estabilidad artificial
Transiciones entre vocalesMovimientos suaves y complejos entre formantesTransiciones abruptas o sobre-suavizadas
Co-articulacionFormantes se modifican por consonantes adyacentesCo-articulación simplificada o ausente
Respiracion y fatigaFormantes cambian sutilmente con la fatiga vocalSin degradación natural a lo largo del discurso
EmocionesFormantes se desplazan con el estado emocionalDesplazamiento emocional ausente o artificial
F0-Formant coherenceCorrelación natural entre pitch y resonanciaIncoherencia entre F0 manipulado y formantes base
Incoherencia pitch-formante: la firma del deepfake

Los manipuladores de voz típicamente alteran la frecuencia fundamental (F0) para cambiar el tono percibido. Sin embargo, no pueden modificar fácilmente los formantes, que dependen de la anatomía física del tracto vocal. Esta incoherencia entre F0 (alterado) y formantes (originales) crea una firma detectable que el análisis forense puede identificar con Praat o herramientas similares.

Hallazgos clave del estudio 2025

El estudio de Forensic Science International (arxiv: 2505.13847) encontró:

  1. Formantes midpoint (MF) superan a MFCC: Los formantes vocálicos medidos en el punto medio de la vocal proporcionan mejor valor evidencial que los coeficientes cepstrales en la distinción real vs sintético
  2. Variabilidad pronunciada: Los modelos deepfake muestran variabilidad pronunciada en la precisión de replicación de formantes vocálicos individuales
  3. Interpretabilidad: Los formantes son altamente interpretables por su relación directa con los procesos articulatorios humanos, lo que facilita su uso como prueba pericial en tribunales
  4. Accent drift detectable: El análisis formántico puede detectar “drift” de acento, es decir, desviaciones en los patrones formánticos esperados para un dialecto específico, que los modelos de síntesis introducen inadvertidamente
  5. Reproducibilidad forense: Al anclarse a unidades fonéticas identificables (vocales específicas), el análisis formántico es transparente y reproducible, requisito fundamental para admisibilidad judicial

Herramientas de analisis formentico

Praat (herramienta principal)

Praat es un software libre desarrollado por Paul Boersma y David Weenink de la Universidad de Amsterdam, considerado el estándar para análisis acústico del habla y ampliamente utilizado en fonética forense mundial.

Capacidades:

  • Visualización de espectrograma con formantes superpuestos
  • Medición automática de F1, F2, F3, F4, F5 (algoritmo Burg)
  • Tracking de formantes a lo largo del tiempo
  • Análisis de pitch (F0), intensidad, jitter, shimmer
  • Scripts automatizables para análisis masivo de muestras
  • Exportación de datos para análisis estadístico

Procedimiento de análisis formántico en Praat:

  1. Cargar audio: Abrir archivo WAV/AIFF en Praat (recomendado 44.1 kHz, 16-bit mínimo)
  2. Visualizar espectrograma: View > Show spectrogram (ventana de análisis 0.005s, rango 0-5000 Hz)
  3. Configurar tracking formantes: Formant > Formant settings (5 formantes, techo 5500 Hz hombre / 5000 Hz mujer)
  4. Segmentar vocales: Identificar y etiquetar segmentos vocálicos en TextGrid
  5. Extraer mediciones: Formant > Get formant (F1, F2, F3) en punto medio de cada vocal
  6. Comparar muestras: Contrastar valores formánticos de muestra cuestionada vs muestra de referencia
  7. Analizar coherencia F0-formante: Verificar correlación natural entre pitch y resonancias
# Script Praat: Extraer formantes de vocales segmentadas
# Uso forense: comparación de muestras de voz
form Configuracion analisis
    text archivo_audio "muestra_cuestionada.wav"
    text archivo_textgrid "segmentacion.TextGrid"
    integer num_formantes 5
    real techo_formantes 5500
endform

Read from file: archivo_audio$
Read from file: archivo_textgrid$

selectObject: "Sound " + replace$(archivo_audio$, ".wav", "", 1)
To Formant (burg): 0.0, num_formantes, techo_formantes, 0.025, 50

# Iterar por intervalos del TextGrid
selectObject: "TextGrid " + replace$(archivo_textgrid$, ".TextGrid", "", 1)
num_intervalos = Get number of intervals: 1

for i from 1 to num_intervalos
    label$ = Get label of interval: 1, i
    if label$ <> ""
        inicio = Get start time of interval: 1, i
        fin = Get end time of interval: 1, i
        medio = (inicio + fin) / 2

        selectObject: "Formant " + replace$(archivo_audio$, ".wav", "", 1)
        f1 = Get value at time: 1, medio, "hertz", "linear"
        f2 = Get value at time: 2, medio, "hertz", "linear"
        f3 = Get value at time: 3, medio, "hertz", "linear"

        appendInfoLine: label$, tab$, fixed$(f1,1), tab$, fixed$(f2,1), tab$, fixed$(f3,1)
        selectObject: "TextGrid " + replace$(archivo_textgrid$, ".TextGrid", "", 1)
    endif
endfor

Otras herramientas de analisis

HerramientaTipoCosteUso forense
PraatAnálisis acústico generalGratuito (open source)Estándar para medición de formantes, espectrogramas, análisis de habla
iZotope RXRestauración y análisis audio399-1.199 dolaresSpectral editing, de-noise, detección ediciones, análisis espectral avanzado
AudacityEditor audio generalGratuito (open source)Espectrograma básico, análisis de frecuencia por ventana
VOCALISESpeaker recognitionComercial (Oxford Wave Research)Comparación automática de hablantes con ratio de verosimilitud
Adobe AuditionEdición audio profesional24,19 euros/mes (Creative Cloud)Espectrograma multicanal, análisis de frecuencia en tiempo real
SIS II (BATVOX)Identificación forense de locutoresComercial (Agnitio)Usado por fuerzas de seguridad españolas para identificación de hablantes
Praat: el estandar forense

Praat es citado en la inmensa mayoría de publicaciones científicas sobre fonética forense y es la herramienta de referencia utilizada por peritos judiciales en España y Europa. Su naturaleza open-source garantiza transparencia metodológica, factor crítico para la admisibilidad de la prueba pericial en tribunales. VOCALISE y BATVOX complementan el análisis cuando se requiere comparación automatizada de grandes volúmenes de muestras.


Caso de estudio: deepfake de voz CEO detectado por analisis formantico

Nota: Caso basado en patrones documentados en publicaciones de ciberseguridad y fonética forense. Detalles específicos anonimizados para proteger la confidencialidad.

Contexto

Empresa española del sector tecnológico recibe llamada telefónica aparentemente del CEO (que se encontraba de viaje) dirigida al Director Financiero (CFO). La voz ordena una transferencia urgente de 280.000 euros a un proveedor internacional. El CFO ejecuta la transferencia. Horas después, el CEO real confirma que nunca realizó esa llamada.

Analisis forense de la grabacion

La empresa disponía de grabación del sistema de telefonía IP. El perito informático forense realizó el siguiente análisis:

  1. Extraccion preservando cadena de custodia: Grabacion extraída del servidor VoIP con hash SHA-256 para garantizar integridad
  2. Analisis espectral inicial: Espectrograma reveló patrones sospechosos en bandas de 3.2-4.0 kHz (artefactos de síntesis). Ver espectrograma audio
  3. Segmentacion vocalica: Se identificaron y etiquetaron 47 segmentos vocálicos en la grabación cuestionada
  4. Extraccion formantes: Medición de F1, F2, F3 en punto medio de cada vocal mediante Praat (algoritmo Burg, 5 formantes, techo 5500 Hz)
  5. Muestra de referencia: Se obtuvieron grabaciones legítimas del CEO (entrevistas, presentaciones corporativas) y se extrajeron formantes equivalentes
  6. Comparacion estadística: Análisis de distribución formántica y test de Mahalanobis entre muestra cuestionada y referencia

Hallazgos

ParametroVoz CEO real (referencia)Voz cuestionada (deepfake)
F1 media vocal /a/742 Hz (SD: 45)761 Hz (SD: 12)
F2 media vocal /a/1.287 Hz (SD: 68)1.301 Hz (SD: 15)
F3 media vocal /a/2.478 Hz (SD: 82)2.510 Hz (SD: 18)
Jitter formántico3,7% variación natural0,8% variación (demasiado estable)
Transiciones F2 /a/-/i/180 ms, curva natural95 ms, transición abrupta
Coherencia F0-F1r = 0,72 (correlación natural)r = 0,31 (incoherencia)

Conclusiones del peritaje:

  • La desviación estándar de los formantes era 3-5 veces menor en la muestra cuestionada que en la referencia, indicando estabilidad artificial incompatible con habla humana natural
  • Las transiciones formánticas entre vocales eran significativamente más rápidas y regulares, patrón característico de síntesis neural
  • La baja correlación F0-F1 indicaba manipulación del pitch sin ajuste correspondiente de resonancias
  • Dictamen: Voz generada por sistema de síntesis neural con alta probabilidad (likelihood ratio mayor que 1000:1)

Resultado

  • Informe pericial admitido como prueba en procedimiento penal
  • Denuncia por estafa agravada (Art. 250 CP) y falsedad documental
  • Empresa recuperó 195.000 euros (70%) vía seguro ciber
  • Banco bloqueó 85.000 euros restantes antes de salida de la UE

Prueba pericial de audio forense

LECrim (Ley de Enjuiciamiento Criminal):

  1. Art. 299 LECrim - Medios de prueba

    • Las grabaciones de audio y su análisis forense son medios de prueba admisibles
    • El análisis formántico constituye prueba pericial de naturaleza técnico-científica
  2. Art. 456-485 LECrim - Prueba pericial

    • El perito debe explicar metodología, herramientas (Praat, espectrograma) y conclusiones
    • Las partes pueden nombrar perito de parte para contrainforme
    • El tribunal valora la prueba pericial según las reglas de la sana crítica

Admisibilidad del analisis formantico

Para que el análisis formántico sea admitido como prueba, debe cumplir:

  • Cadena de custodia: La grabación debe preservarse íntegra con hash criptográfico desde su obtención
  • Metodología reconocida: Praat y el análisis de formantes vocálicos están reconocidos en la comunidad científica internacional
  • Reproducibilidad: Los scripts y configuraciones de Praat deben documentarse para permitir replicación por otro perito
  • Ratio de verosimilitud: El informe debe expresar resultados en términos probabilísticos (likelihood ratio), no en afirmaciones categóricas

Delitos relacionados con deepfakes de voz

Código Penal español:

  1. Art. 248-250 CP - Estafa / estafa agravada

    • Uso de voz sintética para obtener transferencia patrimonial
    • Agravante por empleo de medio tecnológico sofisticado (Art. 250.1.6)
    • Pena: 1-6 años si supera 50.000 euros
  2. Art. 197 CP - Usurpación de identidad

    • La clonación de voz para suplantar identidad de una persona
    • Pena: 1-4 años de prisión
  3. Art. 390-395 CP - Falsedad documental

    • Si la grabación deepfake se presenta como prueba en procedimiento judicial
    • Pena: 3-6 años de prisión

RGPD y biometria vocal

Los datos biométricos de voz (incluidos formantes) son datos de categoría especial protegidos por el Art. 9 del RGPD. Su tratamiento requiere consentimiento explícito o base jurídica específica. En contexto forense judicial, la base jurídica es el Art. 9.2.f (ejercicio de reclamaciones judiciales).


Aplicaciones forenses del analisis de formantes

1. Identificacion de hablantes

Comparación de formantes entre grabación cuestionada y muestra de referencia de un sospechoso. Se miden F1, F2, F3 en vocales específicas y se calcula distancia estadística (Mahalanobis, likelihood ratio).

2. Deteccion de deepfakes de voz

Análisis de regularidad formántica, coherencia F0-formante, naturalidad de transiciones vocálicas y presencia de artefactos espectrales. Ver detección de deepfakes.

3. Verificacion de grabaciones judiciales

Determinación de si una grabación ha sido editada, manipulada o generada artificialmente, analizando continuidad formántica en puntos de corte sospechosos.

4. Analisis dialectal y sociofonético

Los formantes varían según el dialecto regional del hablante. Un perito puede determinar si los patrones formánticos de una grabación son consistentes con el dialecto atribuido al hablante.

5. Determinacion de estado emocional

El estrés, la ansiedad y otras emociones provocan desplazamientos predecibles en los formantes. El análisis forense puede evaluar si un hablante estaba bajo coacción durante una grabación.


Preguntas frecuentes

¿Qué es exactamente un formante y por qué es importante en fonética forense?

Un formante es una concentración de energía acústica en una frecuencia específica, producida por la resonancia del tracto vocal. Los tres primeros formantes (F1, F2, F3) son especialmente relevantes en fonética forense porque dependen de la anatomía individual del hablante (longitud del tracto vocal, forma de la mandíbula, posición de la lengua). Esta dependencia anatómica hace que la combinación de formantes sea prácticamente única para cada persona, funcionando como una “huella vocal” que permite identificar hablantes y detectar voces sintéticas.

¿Puede el análisis de formantes detectar todos los deepfakes de voz?

El análisis de formantes es actualmente una de las técnicas más prometedoras para detectar voz sintética, pero no es infalible. Los modelos de síntesis de voz más avanzados mejoran continuamente en la replicación de patrones formánticos. La investigación de 2025 muestra que los formantes vocálicos superan a otras métricas (MFCC, LTFD) en detección, pero los investigadores advierten que los detectores entrenados en tipos específicos de síntesis pueden fallar con arquitecturas nuevas (EER aumenta 10-40 puntos porcentuales). La combinación de análisis formántico con otras técnicas (espectrograma, MFCC, análisis temporal) proporciona los mejores resultados.

¿Es admisible el análisis de formantes como prueba judicial en España?

Sí. El análisis acústico de voz, incluido el análisis formántico, es admisible como prueba pericial conforme al Art. 299 LECrim. El perito debe usar metodología reconocida (Praat es el estándar aceptado), documentar el procedimiento para permitir su replicación y expresar conclusiones en términos probabilísticos. Los tribunales españoles valoran esta prueba según las reglas de la sana crítica (Art. 741 LECrim), pudiendo ser decisiva cuando se complementa con otras evidencias.

¿Qué diferencia hay entre un espectrograma y un análisis de formantes?

El espectrograma es una representación visual completa de todas las frecuencias del audio a lo largo del tiempo, mostrando la distribución general de energía. El análisis de formantes se centra específicamente en las frecuencias de resonancia del tracto vocal (F1, F2, F3), que aparecen como bandas horizontales de mayor energía en el espectrograma. El espectrograma es la herramienta de visualización; el análisis de formantes es la técnica de medición específica que se aplica sobre él para identificar hablantes y detectar síntesis.

¿Cuánto cuesta un peritaje forense de audio con análisis de formantes?

Un peritaje forense de audio profesional en España oscila entre 1.500 y 4.000 euros dependiendo de la complejidad: análisis básico de autenticidad (1.500-2.000 euros), comparación de hablantes con análisis formántico completo (2.500-3.500 euros), detección de deepfake con informe detallado (3.000-4.000 euros), y ratificación judicial (300-600 euros adicionales). En casos de fraude CEO, el ROI del informe pericial puede superar el 5.000% si permite recuperar el importe defraudado.


Conceptos relacionados

  • Espectrograma audio: Representación visual donde se observan los formantes como bandas de energía
  • Detección de deepfakes: Disciplina que utiliza el análisis formántico como técnica de detección
  • Clonación de voz: Tecnología de síntesis de voz cuyos artefactos detecta el análisis de formantes
  • Contenido sintético: Categoría general de contenido generado por IA que incluye deepfakes de audio
  • Cadena de custodia: Requisito imprescindible para la admisibilidad del análisis formántico en juicio

Referencias y fuentes

  1. Forensic Science International. (2025). “Forensic deepfake audio detection using segmental speech features”. Disponible en: sciencedirect.com / arxiv.org

    • Formantes vocálicos midpoint superan a MFCC, LTFD y LTF0 en detección de voz sintética
  2. PMC/Applied Sciences. (2025). “Audio Deepfake Detection: What Has Been Achieved and What Lies Ahead”. Disponible en: pmc.ncbi.nlm.nih.gov

    • Revisión exhaustiva de técnicas de detección, incluyendo formantes y EER en open-world
  3. Deepstrike. (2025). “Vishing Statistics 2025: AI Deepfakes and the $40B Voice Scam Surge”. Disponible en: deepstrike.io

    • Vishing creció 442% en 2025, pérdidas medias de 500.000 dólares por incidente
  4. Keepnet Labs. (2025). “Deepfake Statistics and Trends 2026”. Disponible en: keepnetlabs.com

    • Voice cloning fraud creció 680%, 77% de víctimas reportaron pérdida económica
  5. CSIC. “La fonética forense: qué es y cuáles son sus principales aplicaciones”. Disponible en: digital.csic.es

    • Referencia académica española sobre fonética forense y análisis de formantes
  6. Scielo. “Comparación forense de voces mediante el análisis acústico”. Disponible en: scielo.conicyt.cl

    • Metodología de comparación forense de hablantes usando F1, F2, F3 con Praat
  7. ResearchGate. “A case for formant analysis in forensic speaker identification”. Disponible en: researchgate.net

    • Argumentación científica del uso de formantes en identificación forense de locutores
  8. Oxford Wave Research. “VOCALISE - Automatic Speaker Recognition Software”. Disponible en: oxfordwaveresearch.com

    • Software comercial de comparación automática de hablantes
  9. Praat. Boersma, P. y Weenink, D. (2025). “Praat: doing Phonetics by Computer”. Universidad de Amsterdam. Disponible en: fon.hum.uva.nl

    • Software open-source estándar para análisis acústico del habla
  10. Resemble AI. (2025). “Top 10 Deepfake Audio Detection Tools”. Disponible en: resemble.ai

    • Herramientas de detección de deepfakes de audio disponibles en 2025
  11. Springer. (2025). “The Future of Audio Forensics: Exploring the Effect of Generative AI”. Disponible en: link.springer.com

    • Impacto de la IA generativa en la fonética forense
  12. Código Penal español: Arts. 197 (usurpación identidad), 248-250 (estafa), 390-395 (falsedad documental)

  13. LECrim: Arts. 299 (medios de prueba), 456-485 (prueba pericial), 741 (sana crítica)


Ultima actualizacion: 12 Febrero 2026 Categoria: Análisis Forense (FOR-009) Nivel tecnico: Avanzado Relevancia: Muy Alta (deepfake audio en auge 2025-2026)

¿Necesitas un peritaje forense?

Si necesitas ayuda profesional con análisis forense digital, estoy aquí para ayudarte.

Solicitar Consulta Gratuita
Jonathan Izquierdo

Jonathan Izquierdo · Perito Forense

+15 años experiencia · AWS Certified

WhatsApp