Formante de Audio
Frecuencia de resonancia del tracto vocal (F1, F2, F3) que caracteriza el timbre único de cada hablante. Herramienta forense clave para identificación de locutores y detección de voz sintética (deepfakes), con tasas de detección superiores al MFCC según estudios de 2025.
Formante de Audio
77%. Ese es el porcentaje de víctimas de clonación de voz que perdieron dinero tras ser engañadas por una voz sintética, según datos de 2025. Los deepfakes de audio han crecido un 442% en un año, con pérdidas medias por incidente de 500.000 dólares en fraudes CEO. Sin embargo, un estudio publicado en Forensic Science International en 2025 demuestra que los formantes vocálicos, las frecuencias de resonancia únicas de cada persona, son el punto débil de la inteligencia artificial: los modelos de síntesis de voz aún no consiguen replicar con precisión los patrones formánticos individuales, convirtiéndolos en la herramienta forense más prometedora para desenmascarar voces falsas.
Definicion tecnica
Un formante es un pico de concentración de energía acústica en el espectro de frecuencias de un sonido del habla, producido por la resonancia del tracto vocal (faringe, cavidad oral, cavidad nasal, labios). Cada configuración del tracto vocal genera frecuencias de resonancia específicas denominadas F1, F2, F3, F4 y superiores.
Los formantes principales:
| Formante | Rango frecuencia tipico | Determinado por | Funcion linguistica |
|---|---|---|---|
| F1 (primer formante) | 250-900 Hz | Apertura mandibular (altura vocal) | Distingue vocales abiertas (/a/) de cerradas (/i/, /u/) |
| F2 (segundo formante) | 850-2.500 Hz | Posición anterior-posterior de la lengua | Distingue vocales anteriores (/i/, /e/) de posteriores (/o/, /u/) |
| F3 (tercer formante) | 1.800-3.500 Hz | Longitud del tracto vocal y configuración labial | Aporta el timbre individual único del hablante |
| F4 (cuarto formante) | 3.000-4.500 Hz | Resonancia subglótica y dimensiones laríngeas | Información adicional sobre anatomía del hablante |
Diferencia clave entre formantes y frecuencia fundamental (F0):
- F0 (pitch): Frecuencia de vibración de las cuerdas vocales. Determina si la voz suena grave o aguda. Se puede modificar voluntariamente y los deepfakes la replican con facilidad
- Formantes (F1-F4): Resonancias del tracto vocal. Dependen de la anatomía física del hablante (longitud del tracto, forma de la mandíbula, posición de la lengua). Son mucho más difíciles de falsificar
Huella vocal unica
Así como cada persona tiene huellas dactilares únicas, la combinación de formantes F1-F4 crea una “huella vocal” específica determinada por la anatomía individual del tracto vocal. Dos personas pueden tener la misma F0 (mismo tono de voz), pero sus formantes serán distintos porque sus tractos vocales tienen dimensiones diferentes.
Como funcionan los formantes en el habla humana
Produccion de formantes
El proceso de generación de formantes sigue el modelo fuente-filtro de la producción del habla:
- Fuente (cuerdas vocales): Las cuerdas vocales vibran generando una onda sonora compleja rica en armónicos, con frecuencia fundamental F0
- Filtro (tracto vocal): La onda viaja por faringe, cavidad oral y nasal. Cada cavidad actúa como resonador que amplifica ciertas frecuencias (formantes) y atenúa otras
- Articulacion: La posición de lengua, mandíbula y labios modifica la geometría del tracto vocal, cambiando las frecuencias de resonancia
- Resultado: El sonido que sale de los labios contiene los formantes específicos que identifican cada vocal y caracterizan al hablante individual
Mapa de formantes vocálicos del español
Las cinco vocales del español se distinguen principalmente por F1 y F2:
F2 alto (anterior) F2 medio F2 bajo (posterior)
~2.200 Hz ~1.500 Hz ~800 Hz
┌─────────────────────────────────────────┐
F1 bajo │ /i/ (F1:300,F2:2200) /u/ (F1:300,F2:800) │ (cerradas)
~300 Hz │ │
│ /e/ (F1:450,F2:1900) /o/ (F1:500,F2:900) │
│ │
F1 alto │ /a/ (F1:800,F2:1300) │ (abierta)
~800 Hz │ │
└─────────────────────────────────────────┘Valores orientativos para hablante masculino español (varían por individuo, sexo y dialecto):
| Vocal | F1 (Hz) | F2 (Hz) | F3 (Hz) |
|---|---|---|---|
| /a/ | 750-850 | 1.200-1.400 | 2.400-2.600 |
| /e/ | 400-500 | 1.800-2.000 | 2.500-2.700 |
| /i/ | 270-320 | 2.100-2.400 | 2.800-3.100 |
| /o/ | 450-550 | 800-1.000 | 2.400-2.600 |
| /u/ | 280-340 | 700-900 | 2.300-2.500 |
Variabilidad individual: por qué los formantes identifican hablantes
La combinación de formantes es única para cada persona porque depende de factores anatómicos individuales:
- Longitud del tracto vocal: Hombres (17,5 cm promedio) vs mujeres (14,5 cm) produce diferentes frecuencias de resonancia
- Forma de la mandíbula: Afecta directamente a F1
- Posición habitual de la lengua: Afecta a F2 (dialectos regionales crean patrones formánticos distintivos)
- Configuración nasal: Modifica formantes en consonantes nasales
- Tensión muscular laríngea: Influye en F3 y F4
Formantes y deteccion de deepfakes de voz
Por que los deepfakes fallan en los formantes
La investigación publicada en Forensic Science International (mayo 2025) por expertos en fonética forense demuestra que las características segmentales como los formantes vocálicos superan a las características globales (MFCC, LTFD, LTF0) en la detección de voz sintética.
Razones por las que la IA no replica bien los formantes:
| Aspecto | Voz humana real | Voz sintetica (deepfake) |
|---|---|---|
| Micro-variaciones F1-F3 | Fluctuaciones naturales continuas (jitter formántico) | Patrones demasiado regulares, estabilidad artificial |
| Transiciones entre vocales | Movimientos suaves y complejos entre formantes | Transiciones abruptas o sobre-suavizadas |
| Co-articulacion | Formantes se modifican por consonantes adyacentes | Co-articulación simplificada o ausente |
| Respiracion y fatiga | Formantes cambian sutilmente con la fatiga vocal | Sin degradación natural a lo largo del discurso |
| Emociones | Formantes se desplazan con el estado emocional | Desplazamiento emocional ausente o artificial |
| F0-Formant coherence | Correlación natural entre pitch y resonancia | Incoherencia entre F0 manipulado y formantes base |
Incoherencia pitch-formante: la firma del deepfake
Los manipuladores de voz típicamente alteran la frecuencia fundamental (F0) para cambiar el tono percibido. Sin embargo, no pueden modificar fácilmente los formantes, que dependen de la anatomía física del tracto vocal. Esta incoherencia entre F0 (alterado) y formantes (originales) crea una firma detectable que el análisis forense puede identificar con Praat o herramientas similares.
Hallazgos clave del estudio 2025
El estudio de Forensic Science International (arxiv: 2505.13847) encontró:
- Formantes midpoint (MF) superan a MFCC: Los formantes vocálicos medidos en el punto medio de la vocal proporcionan mejor valor evidencial que los coeficientes cepstrales en la distinción real vs sintético
- Variabilidad pronunciada: Los modelos deepfake muestran variabilidad pronunciada en la precisión de replicación de formantes vocálicos individuales
- Interpretabilidad: Los formantes son altamente interpretables por su relación directa con los procesos articulatorios humanos, lo que facilita su uso como prueba pericial en tribunales
- Accent drift detectable: El análisis formántico puede detectar “drift” de acento, es decir, desviaciones en los patrones formánticos esperados para un dialecto específico, que los modelos de síntesis introducen inadvertidamente
- Reproducibilidad forense: Al anclarse a unidades fonéticas identificables (vocales específicas), el análisis formántico es transparente y reproducible, requisito fundamental para admisibilidad judicial
Herramientas de analisis formentico
Praat (herramienta principal)
Praat es un software libre desarrollado por Paul Boersma y David Weenink de la Universidad de Amsterdam, considerado el estándar para análisis acústico del habla y ampliamente utilizado en fonética forense mundial.
Capacidades:
- Visualización de espectrograma con formantes superpuestos
- Medición automática de F1, F2, F3, F4, F5 (algoritmo Burg)
- Tracking de formantes a lo largo del tiempo
- Análisis de pitch (F0), intensidad, jitter, shimmer
- Scripts automatizables para análisis masivo de muestras
- Exportación de datos para análisis estadístico
Procedimiento de análisis formántico en Praat:
- Cargar audio: Abrir archivo WAV/AIFF en Praat (recomendado 44.1 kHz, 16-bit mínimo)
- Visualizar espectrograma: View > Show spectrogram (ventana de análisis 0.005s, rango 0-5000 Hz)
- Configurar tracking formantes: Formant > Formant settings (5 formantes, techo 5500 Hz hombre / 5000 Hz mujer)
- Segmentar vocales: Identificar y etiquetar segmentos vocálicos en TextGrid
- Extraer mediciones: Formant > Get formant (F1, F2, F3) en punto medio de cada vocal
- Comparar muestras: Contrastar valores formánticos de muestra cuestionada vs muestra de referencia
- Analizar coherencia F0-formante: Verificar correlación natural entre pitch y resonancias
# Script Praat: Extraer formantes de vocales segmentadas
# Uso forense: comparación de muestras de voz
form Configuracion analisis
text archivo_audio "muestra_cuestionada.wav"
text archivo_textgrid "segmentacion.TextGrid"
integer num_formantes 5
real techo_formantes 5500
endform
Read from file: archivo_audio$
Read from file: archivo_textgrid$
selectObject: "Sound " + replace$(archivo_audio$, ".wav", "", 1)
To Formant (burg): 0.0, num_formantes, techo_formantes, 0.025, 50
# Iterar por intervalos del TextGrid
selectObject: "TextGrid " + replace$(archivo_textgrid$, ".TextGrid", "", 1)
num_intervalos = Get number of intervals: 1
for i from 1 to num_intervalos
label$ = Get label of interval: 1, i
if label$ <> ""
inicio = Get start time of interval: 1, i
fin = Get end time of interval: 1, i
medio = (inicio + fin) / 2
selectObject: "Formant " + replace$(archivo_audio$, ".wav", "", 1)
f1 = Get value at time: 1, medio, "hertz", "linear"
f2 = Get value at time: 2, medio, "hertz", "linear"
f3 = Get value at time: 3, medio, "hertz", "linear"
appendInfoLine: label$, tab$, fixed$(f1,1), tab$, fixed$(f2,1), tab$, fixed$(f3,1)
selectObject: "TextGrid " + replace$(archivo_textgrid$, ".TextGrid", "", 1)
endif
endforOtras herramientas de analisis
| Herramienta | Tipo | Coste | Uso forense |
|---|---|---|---|
| Praat | Análisis acústico general | Gratuito (open source) | Estándar para medición de formantes, espectrogramas, análisis de habla |
| iZotope RX | Restauración y análisis audio | 399-1.199 dolares | Spectral editing, de-noise, detección ediciones, análisis espectral avanzado |
| Audacity | Editor audio general | Gratuito (open source) | Espectrograma básico, análisis de frecuencia por ventana |
| VOCALISE | Speaker recognition | Comercial (Oxford Wave Research) | Comparación automática de hablantes con ratio de verosimilitud |
| Adobe Audition | Edición audio profesional | 24,19 euros/mes (Creative Cloud) | Espectrograma multicanal, análisis de frecuencia en tiempo real |
| SIS II (BATVOX) | Identificación forense de locutores | Comercial (Agnitio) | Usado por fuerzas de seguridad españolas para identificación de hablantes |
Praat: el estandar forense
Praat es citado en la inmensa mayoría de publicaciones científicas sobre fonética forense y es la herramienta de referencia utilizada por peritos judiciales en España y Europa. Su naturaleza open-source garantiza transparencia metodológica, factor crítico para la admisibilidad de la prueba pericial en tribunales. VOCALISE y BATVOX complementan el análisis cuando se requiere comparación automatizada de grandes volúmenes de muestras.
Caso de estudio: deepfake de voz CEO detectado por analisis formantico
Nota: Caso basado en patrones documentados en publicaciones de ciberseguridad y fonética forense. Detalles específicos anonimizados para proteger la confidencialidad.
Contexto
Empresa española del sector tecnológico recibe llamada telefónica aparentemente del CEO (que se encontraba de viaje) dirigida al Director Financiero (CFO). La voz ordena una transferencia urgente de 280.000 euros a un proveedor internacional. El CFO ejecuta la transferencia. Horas después, el CEO real confirma que nunca realizó esa llamada.
Analisis forense de la grabacion
La empresa disponía de grabación del sistema de telefonía IP. El perito informático forense realizó el siguiente análisis:
- Extraccion preservando cadena de custodia: Grabacion extraída del servidor VoIP con hash SHA-256 para garantizar integridad
- Analisis espectral inicial: Espectrograma reveló patrones sospechosos en bandas de 3.2-4.0 kHz (artefactos de síntesis). Ver espectrograma audio
- Segmentacion vocalica: Se identificaron y etiquetaron 47 segmentos vocálicos en la grabación cuestionada
- Extraccion formantes: Medición de F1, F2, F3 en punto medio de cada vocal mediante Praat (algoritmo Burg, 5 formantes, techo 5500 Hz)
- Muestra de referencia: Se obtuvieron grabaciones legítimas del CEO (entrevistas, presentaciones corporativas) y se extrajeron formantes equivalentes
- Comparacion estadística: Análisis de distribución formántica y test de Mahalanobis entre muestra cuestionada y referencia
Hallazgos
| Parametro | Voz CEO real (referencia) | Voz cuestionada (deepfake) |
|---|---|---|
| F1 media vocal /a/ | 742 Hz (SD: 45) | 761 Hz (SD: 12) |
| F2 media vocal /a/ | 1.287 Hz (SD: 68) | 1.301 Hz (SD: 15) |
| F3 media vocal /a/ | 2.478 Hz (SD: 82) | 2.510 Hz (SD: 18) |
| Jitter formántico | 3,7% variación natural | 0,8% variación (demasiado estable) |
| Transiciones F2 /a/-/i/ | 180 ms, curva natural | 95 ms, transición abrupta |
| Coherencia F0-F1 | r = 0,72 (correlación natural) | r = 0,31 (incoherencia) |
Conclusiones del peritaje:
- La desviación estándar de los formantes era 3-5 veces menor en la muestra cuestionada que en la referencia, indicando estabilidad artificial incompatible con habla humana natural
- Las transiciones formánticas entre vocales eran significativamente más rápidas y regulares, patrón característico de síntesis neural
- La baja correlación F0-F1 indicaba manipulación del pitch sin ajuste correspondiente de resonancias
- Dictamen: Voz generada por sistema de síntesis neural con alta probabilidad (likelihood ratio mayor que 1000:1)
Resultado
- Informe pericial admitido como prueba en procedimiento penal
- Denuncia por estafa agravada (Art. 250 CP) y falsedad documental
- Empresa recuperó 195.000 euros (70%) vía seguro ciber
- Banco bloqueó 85.000 euros restantes antes de salida de la UE
Marco legal español
Prueba pericial de audio forense
LECrim (Ley de Enjuiciamiento Criminal):
Art. 299 LECrim - Medios de prueba
- Las grabaciones de audio y su análisis forense son medios de prueba admisibles
- El análisis formántico constituye prueba pericial de naturaleza técnico-científica
Art. 456-485 LECrim - Prueba pericial
- El perito debe explicar metodología, herramientas (Praat, espectrograma) y conclusiones
- Las partes pueden nombrar perito de parte para contrainforme
- El tribunal valora la prueba pericial según las reglas de la sana crítica
Admisibilidad del analisis formantico
Para que el análisis formántico sea admitido como prueba, debe cumplir:
- Cadena de custodia: La grabación debe preservarse íntegra con hash criptográfico desde su obtención
- Metodología reconocida: Praat y el análisis de formantes vocálicos están reconocidos en la comunidad científica internacional
- Reproducibilidad: Los scripts y configuraciones de Praat deben documentarse para permitir replicación por otro perito
- Ratio de verosimilitud: El informe debe expresar resultados en términos probabilísticos (likelihood ratio), no en afirmaciones categóricas
Delitos relacionados con deepfakes de voz
Código Penal español:
Art. 248-250 CP - Estafa / estafa agravada
- Uso de voz sintética para obtener transferencia patrimonial
- Agravante por empleo de medio tecnológico sofisticado (Art. 250.1.6)
- Pena: 1-6 años si supera 50.000 euros
Art. 197 CP - Usurpación de identidad
- La clonación de voz para suplantar identidad de una persona
- Pena: 1-4 años de prisión
Art. 390-395 CP - Falsedad documental
- Si la grabación deepfake se presenta como prueba en procedimiento judicial
- Pena: 3-6 años de prisión
RGPD y biometria vocal
Los datos biométricos de voz (incluidos formantes) son datos de categoría especial protegidos por el Art. 9 del RGPD. Su tratamiento requiere consentimiento explícito o base jurídica específica. En contexto forense judicial, la base jurídica es el Art. 9.2.f (ejercicio de reclamaciones judiciales).
Aplicaciones forenses del analisis de formantes
1. Identificacion de hablantes
Comparación de formantes entre grabación cuestionada y muestra de referencia de un sospechoso. Se miden F1, F2, F3 en vocales específicas y se calcula distancia estadística (Mahalanobis, likelihood ratio).
2. Deteccion de deepfakes de voz
Análisis de regularidad formántica, coherencia F0-formante, naturalidad de transiciones vocálicas y presencia de artefactos espectrales. Ver detección de deepfakes.
3. Verificacion de grabaciones judiciales
Determinación de si una grabación ha sido editada, manipulada o generada artificialmente, analizando continuidad formántica en puntos de corte sospechosos.
4. Analisis dialectal y sociofonético
Los formantes varían según el dialecto regional del hablante. Un perito puede determinar si los patrones formánticos de una grabación son consistentes con el dialecto atribuido al hablante.
5. Determinacion de estado emocional
El estrés, la ansiedad y otras emociones provocan desplazamientos predecibles en los formantes. El análisis forense puede evaluar si un hablante estaba bajo coacción durante una grabación.
Preguntas frecuentes
¿Qué es exactamente un formante y por qué es importante en fonética forense?
Un formante es una concentración de energía acústica en una frecuencia específica, producida por la resonancia del tracto vocal. Los tres primeros formantes (F1, F2, F3) son especialmente relevantes en fonética forense porque dependen de la anatomía individual del hablante (longitud del tracto vocal, forma de la mandíbula, posición de la lengua). Esta dependencia anatómica hace que la combinación de formantes sea prácticamente única para cada persona, funcionando como una “huella vocal” que permite identificar hablantes y detectar voces sintéticas.
¿Puede el análisis de formantes detectar todos los deepfakes de voz?
El análisis de formantes es actualmente una de las técnicas más prometedoras para detectar voz sintética, pero no es infalible. Los modelos de síntesis de voz más avanzados mejoran continuamente en la replicación de patrones formánticos. La investigación de 2025 muestra que los formantes vocálicos superan a otras métricas (MFCC, LTFD) en detección, pero los investigadores advierten que los detectores entrenados en tipos específicos de síntesis pueden fallar con arquitecturas nuevas (EER aumenta 10-40 puntos porcentuales). La combinación de análisis formántico con otras técnicas (espectrograma, MFCC, análisis temporal) proporciona los mejores resultados.
¿Es admisible el análisis de formantes como prueba judicial en España?
Sí. El análisis acústico de voz, incluido el análisis formántico, es admisible como prueba pericial conforme al Art. 299 LECrim. El perito debe usar metodología reconocida (Praat es el estándar aceptado), documentar el procedimiento para permitir su replicación y expresar conclusiones en términos probabilísticos. Los tribunales españoles valoran esta prueba según las reglas de la sana crítica (Art. 741 LECrim), pudiendo ser decisiva cuando se complementa con otras evidencias.
¿Qué diferencia hay entre un espectrograma y un análisis de formantes?
El espectrograma es una representación visual completa de todas las frecuencias del audio a lo largo del tiempo, mostrando la distribución general de energía. El análisis de formantes se centra específicamente en las frecuencias de resonancia del tracto vocal (F1, F2, F3), que aparecen como bandas horizontales de mayor energía en el espectrograma. El espectrograma es la herramienta de visualización; el análisis de formantes es la técnica de medición específica que se aplica sobre él para identificar hablantes y detectar síntesis.
¿Cuánto cuesta un peritaje forense de audio con análisis de formantes?
Un peritaje forense de audio profesional en España oscila entre 1.500 y 4.000 euros dependiendo de la complejidad: análisis básico de autenticidad (1.500-2.000 euros), comparación de hablantes con análisis formántico completo (2.500-3.500 euros), detección de deepfake con informe detallado (3.000-4.000 euros), y ratificación judicial (300-600 euros adicionales). En casos de fraude CEO, el ROI del informe pericial puede superar el 5.000% si permite recuperar el importe defraudado.
Conceptos relacionados
- Espectrograma audio: Representación visual donde se observan los formantes como bandas de energía
- Detección de deepfakes: Disciplina que utiliza el análisis formántico como técnica de detección
- Clonación de voz: Tecnología de síntesis de voz cuyos artefactos detecta el análisis de formantes
- Contenido sintético: Categoría general de contenido generado por IA que incluye deepfakes de audio
- Cadena de custodia: Requisito imprescindible para la admisibilidad del análisis formántico en juicio
Referencias y fuentes
Forensic Science International. (2025). “Forensic deepfake audio detection using segmental speech features”. Disponible en: sciencedirect.com / arxiv.org
- Formantes vocálicos midpoint superan a MFCC, LTFD y LTF0 en detección de voz sintética
PMC/Applied Sciences. (2025). “Audio Deepfake Detection: What Has Been Achieved and What Lies Ahead”. Disponible en: pmc.ncbi.nlm.nih.gov
- Revisión exhaustiva de técnicas de detección, incluyendo formantes y EER en open-world
Deepstrike. (2025). “Vishing Statistics 2025: AI Deepfakes and the $40B Voice Scam Surge”. Disponible en: deepstrike.io
- Vishing creció 442% en 2025, pérdidas medias de 500.000 dólares por incidente
Keepnet Labs. (2025). “Deepfake Statistics and Trends 2026”. Disponible en: keepnetlabs.com
- Voice cloning fraud creció 680%, 77% de víctimas reportaron pérdida económica
CSIC. “La fonética forense: qué es y cuáles son sus principales aplicaciones”. Disponible en: digital.csic.es
- Referencia académica española sobre fonética forense y análisis de formantes
Scielo. “Comparación forense de voces mediante el análisis acústico”. Disponible en: scielo.conicyt.cl
- Metodología de comparación forense de hablantes usando F1, F2, F3 con Praat
ResearchGate. “A case for formant analysis in forensic speaker identification”. Disponible en: researchgate.net
- Argumentación científica del uso de formantes en identificación forense de locutores
Oxford Wave Research. “VOCALISE - Automatic Speaker Recognition Software”. Disponible en: oxfordwaveresearch.com
- Software comercial de comparación automática de hablantes
Praat. Boersma, P. y Weenink, D. (2025). “Praat: doing Phonetics by Computer”. Universidad de Amsterdam. Disponible en: fon.hum.uva.nl
- Software open-source estándar para análisis acústico del habla
Resemble AI. (2025). “Top 10 Deepfake Audio Detection Tools”. Disponible en: resemble.ai
- Herramientas de detección de deepfakes de audio disponibles en 2025
Springer. (2025). “The Future of Audio Forensics: Exploring the Effect of Generative AI”. Disponible en: link.springer.com
- Impacto de la IA generativa en la fonética forense
Código Penal español: Arts. 197 (usurpación identidad), 248-250 (estafa), 390-395 (falsedad documental)
LECrim: Arts. 299 (medios de prueba), 456-485 (prueba pericial), 741 (sana crítica)
Ultima actualizacion: 12 Febrero 2026 Categoria: Análisis Forense (FOR-009) Nivel tecnico: Avanzado Relevancia: Muy Alta (deepfake audio en auge 2025-2026)
¿Necesitas un peritaje forense?
Si necesitas ayuda profesional con análisis forense digital, estoy aquí para ayudarte.
Solicitar Consulta Gratuita
