Formante de Audio

77%. Ese es el porcentaje de víctimas de clonación de voz que perdieron dinero tras ser engañadas por una voz sintética, según datos de 2025. Los deepfakes de audio han crecido un 442% en un año, con pérdidas medias por incidente de 500.000 dólares en fraudes CEO. Sin embargo, un estudio publicado en Forensic Science International en 2025 demuestra que los formantes vocálicos, las frecuencias de resonancia únicas de cada persona, son el punto débil de la inteligencia artificial: los modelos de síntesis de voz aún no consiguen replicar con precisión los patrones formánticos individuales, convirtiéndolos en la herramienta forense más prometedora para desenmascarar voces falsas.

Definicion tecnica

Un formante es un pico de concentración de energía acústica en el espectro de frecuencias de un sonido del habla, producido por la resonancia del tracto vocal (faringe, cavidad oral, cavidad nasal, labios). Cada configuración del tracto vocal genera frecuencias de resonancia específicas denominadas F1, F2, F3, F4 y superiores.

Los formantes principales:

Formante	Rango frecuencia tipico	Determinado por	Funcion linguistica
F1 (primer formante)	250-900 Hz	Apertura mandibular (altura vocal)	Distingue vocales abiertas (/a/) de cerradas (/i/, /u/)
F2 (segundo formante)	850-2.500 Hz	Posición anterior-posterior de la lengua	Distingue vocales anteriores (/i/, /e/) de posteriores (/o/, /u/)
F3 (tercer formante)	1.800-3.500 Hz	Longitud del tracto vocal y configuración labial	Aporta el timbre individual único del hablante
F4 (cuarto formante)	3.000-4.500 Hz	Resonancia subglótica y dimensiones laríngeas	Información adicional sobre anatomía del hablante

Diferencia clave entre formantes y frecuencia fundamental (F0):

F0 (pitch): Frecuencia de vibración de las cuerdas vocales. Determina si la voz suena grave o aguda. Se puede modificar voluntariamente y los deepfakes la replican con facilidad
Formantes (F1-F4): Resonancias del tracto vocal. Dependen de la anatomía física del hablante (longitud del tracto, forma de la mandíbula, posición de la lengua). Son mucho más difíciles de falsificar

Huella vocal unica

Así como cada persona tiene huellas dactilares únicas, la combinación de formantes F1-F4 crea una “huella vocal” específica determinada por la anatomía individual del tracto vocal. Dos personas pueden tener la misma F0 (mismo tono de voz), pero sus formantes serán distintos porque sus tractos vocales tienen dimensiones diferentes.

Como funcionan los formantes en el habla humana

Produccion de formantes

El proceso de generación de formantes sigue el modelo fuente-filtro de la producción del habla:

Fuente (cuerdas vocales): Las cuerdas vocales vibran generando una onda sonora compleja rica en armónicos, con frecuencia fundamental F0
Filtro (tracto vocal): La onda viaja por faringe, cavidad oral y nasal. Cada cavidad actúa como resonador que amplifica ciertas frecuencias (formantes) y atenúa otras
Articulacion: La posición de lengua, mandíbula y labios modifica la geometría del tracto vocal, cambiando las frecuencias de resonancia
Resultado: El sonido que sale de los labios contiene los formantes específicos que identifican cada vocal y caracterizan al hablante individual

Mapa de formantes vocálicos del español

Las cinco vocales del español se distinguen principalmente por F1 y F2:

          F2 alto (anterior)    F2 medio    F2 bajo (posterior)
          ~2.200 Hz             ~1.500 Hz   ~800 Hz
          ┌─────────────────────────────────────────┐
F1 bajo   │  /i/ (F1:300,F2:2200)          /u/ (F1:300,F2:800)  │ (cerradas)
~300 Hz   │                                                       │
          │      /e/ (F1:450,F2:1900)  /o/ (F1:500,F2:900)      │
          │                                                       │
F1 alto   │            /a/ (F1:800,F2:1300)                      │ (abierta)
~800 Hz   │                                                       │
          └─────────────────────────────────────────┘

Valores orientativos para hablante masculino español (varían por individuo, sexo y dialecto):

Vocal	F1 (Hz)	F2 (Hz)	F3 (Hz)
/a/	750-850	1.200-1.400	2.400-2.600
/e/	400-500	1.800-2.000	2.500-2.700
/i/	270-320	2.100-2.400	2.800-3.100
/o/	450-550	800-1.000	2.400-2.600
/u/	280-340	700-900	2.300-2.500

Variabilidad individual: por qué los formantes identifican hablantes

La combinación de formantes es única para cada persona porque depende de factores anatómicos individuales:

Longitud del tracto vocal: Hombres (17,5 cm promedio) vs mujeres (14,5 cm) produce diferentes frecuencias de resonancia
Forma de la mandíbula: Afecta directamente a F1
Posición habitual de la lengua: Afecta a F2 (dialectos regionales crean patrones formánticos distintivos)
Configuración nasal: Modifica formantes en consonantes nasales
Tensión muscular laríngea: Influye en F3 y F4

Formantes y deteccion de deepfakes de voz

Por que los deepfakes fallan en los formantes

La investigación publicada en Forensic Science International (mayo 2025) por expertos en fonética forense demuestra que las características segmentales como los formantes vocálicos superan a las características globales (MFCC, LTFD, LTF0) en la detección de voz sintética.

Razones por las que la IA no replica bien los formantes:

Aspecto	Voz humana real	Voz sintetica (deepfake)
Micro-variaciones F1-F3	Fluctuaciones naturales continuas (jitter formántico)	Patrones demasiado regulares, estabilidad artificial
Transiciones entre vocales	Movimientos suaves y complejos entre formantes	Transiciones abruptas o sobre-suavizadas
Co-articulacion	Formantes se modifican por consonantes adyacentes	Co-articulación simplificada o ausente
Respiracion y fatiga	Formantes cambian sutilmente con la fatiga vocal	Sin degradación natural a lo largo del discurso
Emociones	Formantes se desplazan con el estado emocional	Desplazamiento emocional ausente o artificial
F0-Formant coherence	Correlación natural entre pitch y resonancia	Incoherencia entre F0 manipulado y formantes base

Incoherencia pitch-formante: la firma del deepfake

Los manipuladores de voz típicamente alteran la frecuencia fundamental (F0) para cambiar el tono percibido. Sin embargo, no pueden modificar fácilmente los formantes, que dependen de la anatomía física del tracto vocal. Esta incoherencia entre F0 (alterado) y formantes (originales) crea una firma detectable que el análisis forense puede identificar con Praat o herramientas similares.

Hallazgos clave del estudio 2025

El estudio de Forensic Science International (arxiv: 2505.13847) encontró:

Formantes midpoint (MF) superan a MFCC: Los formantes vocálicos medidos en el punto medio de la vocal proporcionan mejor valor evidencial que los coeficientes cepstrales en la distinción real vs sintético
Variabilidad pronunciada: Los modelos deepfake muestran variabilidad pronunciada en la precisión de replicación de formantes vocálicos individuales
Interpretabilidad: Los formantes son altamente interpretables por su relación directa con los procesos articulatorios humanos, lo que facilita su uso como prueba pericial en tribunales
Accent drift detectable: El análisis formántico puede detectar “drift” de acento, es decir, desviaciones en los patrones formánticos esperados para un dialecto específico, que los modelos de síntesis introducen inadvertidamente
Reproducibilidad forense: Al anclarse a unidades fonéticas identificables (vocales específicas), el análisis formántico es transparente y reproducible, requisito fundamental para admisibilidad judicial

Herramientas de analisis formentico

Praat (herramienta principal)

Praat es un software libre desarrollado por Paul Boersma y David Weenink de la Universidad de Amsterdam, considerado el estándar para análisis acústico del habla y ampliamente utilizado en fonética forense mundial.

Capacidades:

Visualización de espectrograma con formantes superpuestos
Medición automática de F1, F2, F3, F4, F5 (algoritmo Burg)
Tracking de formantes a lo largo del tiempo
Análisis de pitch (F0), intensidad, jitter, shimmer
Scripts automatizables para análisis masivo de muestras
Exportación de datos para análisis estadístico

Procedimiento de análisis formántico en Praat:

Cargar audio: Abrir archivo WAV/AIFF en Praat (recomendado 44.1 kHz, 16-bit mínimo)
Visualizar espectrograma: View > Show spectrogram (ventana de análisis 0.005s, rango 0-5000 Hz)
Configurar tracking formantes: Formant > Formant settings (5 formantes, techo 5500 Hz hombre / 5000 Hz mujer)
Segmentar vocales: Identificar y etiquetar segmentos vocálicos en TextGrid
Extraer mediciones: Formant > Get formant (F1, F2, F3) en punto medio de cada vocal
Comparar muestras: Contrastar valores formánticos de muestra cuestionada vs muestra de referencia
Analizar coherencia F0-formante: Verificar correlación natural entre pitch y resonancias

# Script Praat: Extraer formantes de vocales segmentadas
# Uso forense: comparación de muestras de voz
form Configuracion analisis
    text archivo_audio "muestra_cuestionada.wav"
    text archivo_textgrid "segmentacion.TextGrid"
    integer num_formantes 5
    real techo_formantes 5500
endform

Read from file: archivo_audio$
Read from file: archivo_textgrid$

selectObject: "Sound " + replace$(archivo_audio$, ".wav", "", 1)
To Formant (burg): 0.0, num_formantes, techo_formantes, 0.025, 50

# Iterar por intervalos del TextGrid
selectObject: "TextGrid " + replace$(archivo_textgrid$, ".TextGrid", "", 1)
num_intervalos = Get number of intervals: 1

for i from 1 to num_intervalos
    label$ = Get label of interval: 1, i
    if label$ <> ""
        inicio = Get start time of interval: 1, i
        fin = Get end time of interval: 1, i
        medio = (inicio + fin) / 2

        selectObject: "Formant " + replace$(archivo_audio$, ".wav", "", 1)
        f1 = Get value at time: 1, medio, "hertz", "linear"
        f2 = Get value at time: 2, medio, "hertz", "linear"
        f3 = Get value at time: 3, medio, "hertz", "linear"

        appendInfoLine: label$, tab$, fixed$(f1,1), tab$, fixed$(f2,1), tab$, fixed$(f3,1)
        selectObject: "TextGrid " + replace$(archivo_textgrid$, ".TextGrid", "", 1)
    endif
endfor

Otras herramientas de analisis

Herramienta	Tipo	Coste	Uso forense
Praat	Análisis acústico general	Gratuito (open source)	Estándar para medición de formantes, espectrogramas, análisis de habla
iZotope RX	Restauración y análisis audio	399-1.199 dolares	Spectral editing, de-noise, detección ediciones, análisis espectral avanzado
Audacity	Editor audio general	Gratuito (open source)	Espectrograma básico, análisis de frecuencia por ventana
VOCALISE	Speaker recognition	Comercial (Oxford Wave Research)	Comparación automática de hablantes con ratio de verosimilitud
Adobe Audition	Edición audio profesional	24,19 euros/mes (Creative Cloud)	Espectrograma multicanal, análisis de frecuencia en tiempo real
SIS II (BATVOX)	Identificación forense de locutores	Comercial (Agnitio)	Usado por fuerzas de seguridad españolas para identificación de hablantes

Praat: el estandar forense

Praat es citado en la inmensa mayoría de publicaciones científicas sobre fonética forense y es la herramienta de referencia utilizada por peritos judiciales en España y Europa. Su naturaleza open-source garantiza transparencia metodológica, factor crítico para la admisibilidad de la prueba pericial en tribunales. VOCALISE y BATVOX complementan el análisis cuando se requiere comparación automatizada de grandes volúmenes de muestras.

Caso de estudio: deepfake de voz CEO detectado por analisis formantico

Nota: Caso basado en patrones documentados en publicaciones de ciberseguridad y fonética forense. Detalles específicos anonimizados para proteger la confidencialidad.

Contexto

Empresa española del sector tecnológico recibe llamada telefónica aparentemente del CEO (que se encontraba de viaje) dirigida al Director Financiero (CFO). La voz ordena una transferencia urgente de 280.000 euros a un proveedor internacional. El CFO ejecuta la transferencia. Horas después, el CEO real confirma que nunca realizó esa llamada.

Analisis forense de la grabacion

La empresa disponía de grabación del sistema de telefonía IP. El perito informático forense realizó el siguiente análisis:

Extraccion preservando cadena de custodia: Grabacion extraída del servidor VoIP con hash SHA-256 para garantizar integridad
Analisis espectral inicial: Espectrograma reveló patrones sospechosos en bandas de 3.2-4.0 kHz (artefactos de síntesis). Ver espectrograma audio
Segmentacion vocalica: Se identificaron y etiquetaron 47 segmentos vocálicos en la grabación cuestionada
Extraccion formantes: Medición de F1, F2, F3 en punto medio de cada vocal mediante Praat (algoritmo Burg, 5 formantes, techo 5500 Hz)
Muestra de referencia: Se obtuvieron grabaciones legítimas del CEO (entrevistas, presentaciones corporativas) y se extrajeron formantes equivalentes
Comparacion estadística: Análisis de distribución formántica y test de Mahalanobis entre muestra cuestionada y referencia

Hallazgos

Parametro	Voz CEO real (referencia)	Voz cuestionada (deepfake)
F1 media vocal /a/	742 Hz (SD: 45)	761 Hz (SD: 12)
F2 media vocal /a/	1.287 Hz (SD: 68)	1.301 Hz (SD: 15)
F3 media vocal /a/	2.478 Hz (SD: 82)	2.510 Hz (SD: 18)
Jitter formántico	3,7% variación natural	0,8% variación (demasiado estable)
Transiciones F2 /a/-/i/	180 ms, curva natural	95 ms, transición abrupta
Coherencia F0-F1	r = 0,72 (correlación natural)	r = 0,31 (incoherencia)

Conclusiones del peritaje:

La desviación estándar de los formantes era 3-5 veces menor en la muestra cuestionada que en la referencia, indicando estabilidad artificial incompatible con habla humana natural
Las transiciones formánticas entre vocales eran significativamente más rápidas y regulares, patrón característico de síntesis neural
La baja correlación F0-F1 indicaba manipulación del pitch sin ajuste correspondiente de resonancias
Dictamen: Voz generada por sistema de síntesis neural con alta probabilidad (likelihood ratio mayor que 1000:1)

Resultado

Informe pericial admitido como prueba en procedimiento penal
Denuncia por estafa agravada (Art. 250 CP) y falsedad documental
Empresa recuperó 195.000 euros (70%) vía seguro ciber
Banco bloqueó 85.000 euros restantes antes de salida de la UE

Marco legal español

Prueba pericial de audio forense

LECrim (Ley de Enjuiciamiento Criminal):

Art. 299 LECrim - Medios de prueba
- Las grabaciones de audio y su análisis forense son medios de prueba admisibles
- El análisis formántico constituye prueba pericial de naturaleza técnico-científica
Art. 456-485 LECrim - Prueba pericial
- El perito debe explicar metodología, herramientas (Praat, espectrograma) y conclusiones
- Las partes pueden nombrar perito de parte para contrainforme
- El tribunal valora la prueba pericial según las reglas de la sana crítica

Admisibilidad del analisis formantico

Para que el análisis formántico sea admitido como prueba, debe cumplir:

Cadena de custodia: La grabación debe preservarse íntegra con hash criptográfico desde su obtención
Metodología reconocida: Praat y el análisis de formantes vocálicos están reconocidos en la comunidad científica internacional
Reproducibilidad: Los scripts y configuraciones de Praat deben documentarse para permitir replicación por otro perito
Ratio de verosimilitud: El informe debe expresar resultados en términos probabilísticos (likelihood ratio), no en afirmaciones categóricas

Delitos relacionados con deepfakes de voz

Código Penal español:

Art. 248-250 CP - Estafa / estafa agravada
- Uso de voz sintética para obtener transferencia patrimonial
- Agravante por empleo de medio tecnológico sofisticado (Art. 250.1.6)
- Pena: 1-6 años si supera 50.000 euros
Art. 197 CP - Usurpación de identidad
- La clonación de voz para suplantar identidad de una persona
- Pena: 1-4 años de prisión
Art. 390-395 CP - Falsedad documental
- Si la grabación deepfake se presenta como prueba en procedimiento judicial
- Pena: 3-6 años de prisión

RGPD y biometria vocal

Los datos biométricos de voz (incluidos formantes) son datos de categoría especial protegidos por el Art. 9 del RGPD. Su tratamiento requiere consentimiento explícito o base jurídica específica. En contexto forense judicial, la base jurídica es el Art. 9.2.f (ejercicio de reclamaciones judiciales).

Aplicaciones forenses del analisis de formantes

1. Identificacion de hablantes

Comparación de formantes entre grabación cuestionada y muestra de referencia de un sospechoso. Se miden F1, F2, F3 en vocales específicas y se calcula distancia estadística (Mahalanobis, likelihood ratio).

2. Deteccion de deepfakes de voz

Análisis de regularidad formántica, coherencia F0-formante, naturalidad de transiciones vocálicas y presencia de artefactos espectrales. Ver detección de deepfakes.

3. Verificacion de grabaciones judiciales

Determinación de si una grabación ha sido editada, manipulada o generada artificialmente, analizando continuidad formántica en puntos de corte sospechosos.

4. Analisis dialectal y sociofonético

Los formantes varían según el dialecto regional del hablante. Un perito puede determinar si los patrones formánticos de una grabación son consistentes con el dialecto atribuido al hablante.

5. Determinacion de estado emocional

El estrés, la ansiedad y otras emociones provocan desplazamientos predecibles en los formantes. El análisis forense puede evaluar si un hablante estaba bajo coacción durante una grabación.

Preguntas frecuentes

¿Qué es exactamente un formante y por qué es importante en fonética forense?

Un formante es una concentración de energía acústica en una frecuencia específica, producida por la resonancia del tracto vocal. Los tres primeros formantes (F1, F2, F3) son especialmente relevantes en fonética forense porque dependen de la anatomía individual del hablante (longitud del tracto vocal, forma de la mandíbula, posición de la lengua). Esta dependencia anatómica hace que la combinación de formantes sea prácticamente única para cada persona, funcionando como una “huella vocal” que permite identificar hablantes y detectar voces sintéticas.

¿Puede el análisis de formantes detectar todos los deepfakes de voz?

El análisis de formantes es actualmente una de las técnicas más prometedoras para detectar voz sintética, pero no es infalible. Los modelos de síntesis de voz más avanzados mejoran continuamente en la replicación de patrones formánticos. La investigación de 2025 muestra que los formantes vocálicos superan a otras métricas (MFCC, LTFD) en detección, pero los investigadores advierten que los detectores entrenados en tipos específicos de síntesis pueden fallar con arquitecturas nuevas (EER aumenta 10-40 puntos porcentuales). La combinación de análisis formántico con otras técnicas (espectrograma, MFCC, análisis temporal) proporciona los mejores resultados.

¿Es admisible el análisis de formantes como prueba judicial en España?

Sí. El análisis acústico de voz, incluido el análisis formántico, es admisible como prueba pericial conforme al Art. 299 LECrim. El perito debe usar metodología reconocida (Praat es el estándar aceptado), documentar el procedimiento para permitir su replicación y expresar conclusiones en términos probabilísticos. Los tribunales españoles valoran esta prueba según las reglas de la sana crítica (Art. 741 LECrim), pudiendo ser decisiva cuando se complementa con otras evidencias.

¿Qué diferencia hay entre un espectrograma y un análisis de formantes?

El espectrograma es una representación visual completa de todas las frecuencias del audio a lo largo del tiempo, mostrando la distribución general de energía. El análisis de formantes se centra específicamente en las frecuencias de resonancia del tracto vocal (F1, F2, F3), que aparecen como bandas horizontales de mayor energía en el espectrograma. El espectrograma es la herramienta de visualización; el análisis de formantes es la técnica de medición específica que se aplica sobre él para identificar hablantes y detectar síntesis.

¿Cuánto cuesta un peritaje forense de audio con análisis de formantes?

Un peritaje forense de audio profesional en España oscila entre 1.500 y 4.000 euros dependiendo de la complejidad: análisis básico de autenticidad (1.500-2.000 euros), comparación de hablantes con análisis formántico completo (2.500-3.500 euros), detección de deepfake con informe detallado (3.000-4.000 euros), y ratificación judicial (300-600 euros adicionales). En casos de fraude CEO, el ROI del informe pericial puede superar el 5.000% si permite recuperar el importe defraudado.

Conceptos relacionados

Espectrograma audio: Representación visual donde se observan los formantes como bandas de energía
Detección de deepfakes: Disciplina que utiliza el análisis formántico como técnica de detección
Clonación de voz: Tecnología de síntesis de voz cuyos artefactos detecta el análisis de formantes
Contenido sintético: Categoría general de contenido generado por IA que incluye deepfakes de audio
Cadena de custodia: Requisito imprescindible para la admisibilidad del análisis formántico en juicio

Referencias y fuentes

Forensic Science International. (2025). “Forensic deepfake audio detection using segmental speech features”. Disponible en: sciencedirect.com / arxiv.org
- Formantes vocálicos midpoint superan a MFCC, LTFD y LTF0 en detección de voz sintética
PMC/Applied Sciences. (2025). “Audio Deepfake Detection: What Has Been Achieved and What Lies Ahead”. Disponible en: pmc.ncbi.nlm.nih.gov
- Revisión exhaustiva de técnicas de detección, incluyendo formantes y EER en open-world
Deepstrike. (2025). “Vishing Statistics 2025: AI Deepfakes and the $40B Voice Scam Surge”. Disponible en: deepstrike.io
- Vishing creció 442% en 2025, pérdidas medias de 500.000 dólares por incidente
Keepnet Labs. (2025). “Deepfake Statistics and Trends 2026”. Disponible en: keepnetlabs.com
- Voice cloning fraud creció 680%, 77% de víctimas reportaron pérdida económica
CSIC. “La fonética forense: qué es y cuáles son sus principales aplicaciones”. Disponible en: digital.csic.es
- Referencia académica española sobre fonética forense y análisis de formantes
Scielo. “Comparación forense de voces mediante el análisis acústico”. Disponible en: scielo.conicyt.cl
- Metodología de comparación forense de hablantes usando F1, F2, F3 con Praat
ResearchGate. “A case for formant analysis in forensic speaker identification”. Disponible en: researchgate.net
- Argumentación científica del uso de formantes en identificación forense de locutores
Oxford Wave Research. “VOCALISE - Automatic Speaker Recognition Software”. Disponible en: oxfordwaveresearch.com
- Software comercial de comparación automática de hablantes
Praat. Boersma, P. y Weenink, D. (2025). “Praat: doing Phonetics by Computer”. Universidad de Amsterdam. Disponible en: fon.hum.uva.nl
- Software open-source estándar para análisis acústico del habla
Resemble AI. (2025). “Top 10 Deepfake Audio Detection Tools”. Disponible en: resemble.ai
- Herramientas de detección de deepfakes de audio disponibles en 2025
Springer. (2025). “The Future of Audio Forensics: Exploring the Effect of Generative AI”. Disponible en: link.springer.com
- Impacto de la IA generativa en la fonética forense
Código Penal español: Arts. 197 (usurpación identidad), 248-250 (estafa), 390-395 (falsedad documental)
LECrim: Arts. 299 (medios de prueba), 456-485 (prueba pericial), 741 (sana crítica)

Ultima actualizacion: 12 Febrero 2026 Categoria: Análisis Forense (FOR-009) Nivel tecnico: Avanzado Relevancia: Muy Alta (deepfake audio en auge 2025-2026)