Detección de Texto IA
Conjunto de técnicas, herramientas y metodologías diseñadas para identificar si un texto fue generado total o parcialmente por un modelo de inteligencia artificial, incluyendo métodos estadísticos (perplejidad, burstiness, entropía), clasificadores de aprendizaje automático, marcas de agua digitales (C2PA, SynthID), análisis estilométrico y análisis de metadatos de documentos.
¿Qué es la detección de texto IA?
La detección de texto IA es el campo técnico dedicado a determinar si un fragmento de texto fue producido total o parcialmente por un modelo de inteligencia artificial generativa (como GPT-4, Claude, Gemini, Llama o Mistral). Este campo combina técnicas estadísticas, aprendizaje automático, lingüística computacional y análisis de metadatos para identificar las huellas que los modelos de lenguaje dejan en el texto que generan.
La necesidad de detectar texto generado por IA ha crecido exponencialmente desde la popularización de ChatGPT en noviembre de 2022. En solo tres años, la detección de texto IA ha pasado de ser un problema académico a una necesidad práctica en educación, justicia, periodismo, empresa y administración pública.
Campo en constante evolución
La detección de texto IA es una carrera armamentística: a medida que los modelos de lenguaje mejoran y producen texto más “humano”, las herramientas de detección deben evolucionar. Las técnicas y precisiones descritas en este artículo reflejan el estado del arte en marzo de 2026 y pueden cambiar significativamente en meses.
Categorías de métodos de detección
Los métodos de detección se clasifican en tres grandes familias:
| Categoría | Enfoque | Ventajas | Limitaciones |
|---|---|---|---|
| Estadísticos | Analizar propiedades matemáticas del texto | Interpretables, no requieren entrenamiento | Precisión limitada en textos cortos |
| Basados en ML | Clasificadores entrenados con textos humanos/IA | Alta precisión en condiciones óptimas | Caja negra, necesitan datos de entrenamiento |
| Watermarking | Marcas invisibles insertadas durante la generación | Muy alta precisión si están presentes | Requieren cooperación del proveedor |
| Híbridos | Combinación de las anteriores | Robustez por triangulación | Mayor complejidad y coste |
Métodos estadísticos
Perplejidad
La perplejidad es la métrica más fundamental para la detección de texto IA. Mide cuán “sorprendente” resulta un texto para un modelo de lenguaje de referencia:
Definición matemática:
PPL(X) = exp(-1/N × Σ log P(x_i | x_1, ..., x_{i-1}))
donde:
- X = secuencia de tokens del texto
- N = número total de tokens
- P(x_i | ...) = probabilidad del token i dado el contexto¿Por qué funciona?
Los LLM generan texto seleccionando tokens de alta probabilidad según su distribución aprendida. Por tanto, el texto generado por IA tiende a tener perplejidad baja cuando se evalúa con un modelo similar, porque sigue el camino de máxima probabilidad. Los humanos, en cambio, hacen elecciones menos predecibles: usan palabras inesperadas, construcciones idiomáticas personales y expresiones coloquiales que un modelo no priorizaría.
Perplejidad por tipo de texto:
| Tipo de texto | Perplejidad típica | Interpretación |
|---|---|---|
| Texto ChatGPT (temperature 0.3) | 5-12 | Muy baja: fuerte indicador de IA |
| Texto ChatGPT (temperature 0.7) | 12-25 | Baja: indicador moderado de IA |
| Texto ChatGPT (temperature 1.0) | 20-40 | Zona ambigua |
| Texto legal/normativo humano | 15-30 | Baja por formalidad (falso positivo) |
| Escritura periodística humana | 30-60 | Media: zona normal humana |
| Escritura creativa/literaria | 50-120 | Alta: fuerte indicador humano |
| Conversación informal humana | 60-150 | Muy alta: indicador claro de humano |
| Poesía/escritura experimental | 100-300+ | Extrema: patrón humano |
Perplejidad no es prueba absoluta
Un texto legal muy formal escrito por un abogado puede tener perplejidad tan baja como texto generado por IA, porque los textos legales siguen fórmulas y estructuras predecibles. La perplejidad siempre debe combinarse con otras métricas para evitar falsos positivos.
Burstiness (Explosividad)
La burstiness mide la variabilidad en la complejidad y longitud de las oraciones a lo largo del texto:
Cálculo de burstiness:
Burstiness = σ(S) / μ(S)
donde:
- S = {s_1, s_2, ..., s_n} (longitudes de oraciones)
- σ(S) = desviación estándar
- μ(S) = media
Variantes más sofisticadas incluyen:
- Burstiness de complejidad sintáctica (profundidad de árbol)
- Burstiness de riqueza léxica por ventana
- Burstiness multi-escala (oración, párrafo, sección)Visualización comparativa:
LONGITUD DE ORACIONES — TEXTO HUMANO
│
│ ██
│ ██ ████
│ ██ ██ ██ ████
│ ██ ██ ██ ██ ██ ██ ████ ██
│ ██ ██ ██ ██ ██ ██ ██ ██ ████ ██ ██
│ ██ ██ ██ ██ ██ ██ ██ ██ ████ ██ ██
└──────────────────────────────────────────────→
1 2 3 4 5 6 7 8 9 10 11
(Número de oración → altura = longitud)
Burstiness = 0.82 (alta variabilidad)
LONGITUD DE ORACIONES — TEXTO LLM
│
│
│ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██
│ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██
│ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██
│ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██
└──────────────────────────────────────────────→
1 2 3 4 5 6 7 8 9 10 11
Burstiness = 0.21 (baja variabilidad)Interpretación forense:
| Burstiness | Clasificación | Confianza |
|---|---|---|
| < 0.25 | Fuerte indicador de IA | Alta |
| 0.25 - 0.40 | Posible IA o texto muy formal | Media |
| 0.40 - 0.60 | Zona ambigua | Baja |
| 0.60 - 0.80 | Probable humano | Media-alta |
| > 0.80 | Fuerte indicador humano | Alta |
Entropía
La entropía mide la cantidad de información y la imprevisibilidad del texto a nivel de token:
Entropía de Shannon:
H(X) = -Σ P(x_i) × log₂ P(x_i)
Entropía por posición (análisis secuencial):
H_j = -Σ P(x_j | contexto) × log₂ P(x_j | contexto)
La entropía se analiza:
- Globalmente (media del texto completo)
- Por ventanas deslizantes (variación local)
- En puntos de transición (inicio de párrafos/secciones)Patrones de entropía característicos:
ENTROPÍA POR POSICIÓN — TEXTO HUMANO
H │
│ ╱╲ ╱╲ ╱╲╱╲
│╱ ╲ ╱ ╲╱╲ ╱ ╲ ╱╲
│ ╲╱ ╲ ╲ ╱ ╲ ╱ ╲
│ ╲╱╲ ╲╱╲╱ ╲╱╲
└──────────────────────────────────────→
(Alta variabilidad, picos en transiciones)
ENTROPÍA POR POSICIÓN — TEXTO LLM
H │
│
│ ──────────────────────────────────
│
│
└──────────────────────────────────────→
(Baja variabilidad, entropía casi constante)Análisis combinado de las tres métricas:
| Perplejidad | Burstiness | Entropía | Diagnóstico |
|---|---|---|---|
| Baja | Baja | Constante | IA con alta probabilidad |
| Baja | Alta | Variable | Texto humano formal (legal, técnico) |
| Alta | Baja | Constante | IA con temperature alta + edición |
| Alta | Alta | Variable | Humano con alta probabilidad |
| Media | Media | Mixta | Zona ambigua — requiere análisis adicional |
Análisis de distribución de vocabulario
Ley de Zipf:
La Ley de Zipf establece que en textos naturales, la frecuencia de una palabra es inversamente proporcional a su rango:
f(r) ≈ C / r^α
donde:
- f(r) = frecuencia de la palabra de rango r
- C = constante
- α ≈ 1 para textos humanos naturalesLos textos generados por IA tienden a desviarse sutilmente de esta ley:
| Característica | Texto humano | Texto IA |
|---|---|---|
| Exponente α | ~1.0 (Zipf puro) | 0.85-0.95 (desviación leve) |
| Cola de distribución | Muchas palabras raras | Menos palabras raras |
| Hapax legomena | 40-60% del vocabulario | 30-45% del vocabulario |
| Type-Token Ratio | Variable por autor | Más consistente |
Riqueza léxica (Type-Token Ratio):
TTR = Tipos únicos / Total de tokens
TTR por ventanas (más robusto):
MATTR = Media de TTR en ventanas de N palabras
Valores típicos:
- Texto IA genérico: MATTR 0.70-0.78
- Texto humano narrativo: MATTR 0.75-0.85
- Texto humano creativo: MATTR 0.80-0.92
- Texto técnico (humano o IA): MATTR 0.65-0.75Análisis de n-gramas
El estudio de secuencias de n palabras consecutivas revela patrones diferenciadores:
| Métrica | Qué mide | Indicador IA |
|---|---|---|
| Repetición de bigramas | Pares de palabras que se repiten | Mayor repetición en IA |
| Originalidad de trigramas | Secuencias de 3 palabras únicas | Menor originalidad en IA |
| Cobertura de 4-gramas | % de 4-gramas encontrados en corpus de IA | Alta cobertura = indicador IA |
| Diversidad de inicios de oración | Variedad en las primeras palabras | Menor diversidad en IA |
Frases formulaicas típicas de LLM en español:
CONECTORES SOBREUTILIZADOS POR LLM:
- "Es importante señalar que..."
- "Cabe destacar que..."
- "En este sentido..."
- "A modo de conclusión..."
- "Resulta fundamental..."
- "No obstante lo anterior..."
- "Dicho esto..."
- "En definitiva..."
- "Desde esta perspectiva..."
- "Es preciso mencionar..."
- "Conviene recordar que..."
- "En el marco de..."
- "Por consiguiente..."
- "En primer lugar... en segundo lugar..."
ESTRUCTURAS TÍPICAS:
- Párrafos de longitud similar (~100-150 palabras)
- Listas con "En primer lugar / En segundo lugar / Finalmente"
- Transiciones equilibradas entre párrafos
- Conclusiones que resumen los puntos anteriores
- Uso frecuente de voz pasiva impersonalLos conectores por sí solos no prueban nada
Muchos escritores humanos también usan conectores formulaicos, especialmente en textos académicos y legales. La presencia de estas frases es un indicador complementario, nunca una prueba aislada. Lo relevante es la acumulación de múltiples indicadores.
Métodos basados en aprendizaje automático
Clasificadores supervisados
Los clasificadores ML se entrenan con grandes conjuntos de textos etiquetados como “humano” o “IA”:
ARQUITECTURA TÍPICA DE CLASIFICADOR
ENTRADA: Texto a analizar
│
▼
┌──────────────────────┐
│ TOKENIZACIÓN │ → Tokens, subpalabras
└──────────────────────┘
│
▼
┌──────────────────────┐
│ EXTRACCIÓN DE │ → Perplejidad, burstiness,
│ CARACTERÍSTICAS │ entropía, n-gramas, TTR,
│ │ longitud oraciones, etc.
└──────────────────────┘
│
▼
┌──────────────────────┐
│ MODELO │ → Transformer fine-tuned,
│ CLASIFICADOR │ Random Forest, o ensemble
└──────────────────────┘
│
▼
┌──────────────────────┐
│ SALIDA │ → Probabilidad IA: 0.0 - 1.0
│ │ + Desglose por sección
└──────────────────────┘Tipos de clasificadores:
| Tipo | Ejemplo | Ventaja | Limitación |
|---|---|---|---|
| Transformer fine-tuned | RoBERTa, DeBERTa | Muy alta precisión | Requiere GPU, opaco |
| Ensemble de features | Random Forest + estadísticas | Interpretable | Menor precisión |
| Zero-shot | DetectGPT, Binoculars | No requiere entrenamiento | Menor precisión general |
| Few-shot | Clasificador con pocos ejemplos | Adaptable a nuevos modelos | Necesita ejemplos del modelo |
DetectGPT (método de perturbaciones)
DetectGPT es un método zero-shot que no necesita un clasificador entrenado:
ALGORITMO DETECTGPT
1. Dado un texto T, calcular log-probabilidad: logP(T)
2. Generar N perturbaciones de T usando un modelo auxiliar:
T'_1, T'_2, ..., T'_N
(Cada T'_i es T con algunas palabras reemplazadas
por sinónimos/paráfrasis)
3. Calcular log-probabilidad de cada perturbación:
logP(T'_1), logP(T'_2), ..., logP(T'_N)
4. Calcular puntuación:
d = (logP(T) - μ(logP(T'_i))) / σ(logP(T'_i))
INTERPRETACIÓN:
- d > umbral → Texto probablemente generado por máquina
(el texto original tiene probabilidad más alta que
sus perturbaciones, indicando que está en un "pico"
de la distribución del modelo)
- d < umbral → Texto probablemente humano
(las perturbaciones tienen probabilidad similar,
indicando una región "plana" de la distribución)Ventajas de DetectGPT:
- No requiere datos de entrenamiento etiquetados
- Basado en principio estadístico fundamentado
- Adaptable a nuevos modelos sin reentrenamiento
Limitaciones:
- Computacionalmente costoso (N perturbaciones por texto)
- Menor precisión que clasificadores supervisados
- Sensible al modelo auxiliar elegido para perturbaciones
Binoculars
Binoculars es un método open source reciente que compara dos modelos de referencia:
ALGORITMO BINOCULARS
1. Usar dos modelos de referencia: M1 (grande) y M2 (pequeño)
2. Para cada token del texto, calcular:
- logP_M1(token | contexto) → probabilidad según modelo grande
- logP_M2(token | contexto) → probabilidad según modelo pequeño
3. Calcular la ratio:
B = Σ logP_M1(token) / Σ logP_M2(token)
INTERPRETACIÓN:
- B alto → Texto generado por máquina
(ambos modelos le dan alta probabilidad)
- B bajo → Texto humano
(el modelo grande le da más probabilidad relativa
porque entiende mejor las elecciones humanas)Resultados reportados (2024):
| Modelo fuente | Precisión Binoculars | Falsos positivos |
|---|---|---|
| GPT-4 | 93.7% | 3.2% |
| Claude 3 | 91.2% | 3.8% |
| Gemini Pro | 89.4% | 4.1% |
| Llama 3 | 87.6% | 4.5% |
| Mistral | 86.1% | 5.0% |
GLTR (Giant Language model Test Room)
GLTR no es un clasificador sino una herramienta de visualización:
FUNCIONAMIENTO DE GLTR
Para cada palabra del texto, GLTR calcula su ranking
en la distribución de probabilidad del modelo:
Colores:
🟢 Verde → Top 10 palabras más probables
🟡 Amarillo → Top 100
🔴 Rojo → Top 1000
🟣 Púrpura → Fuera del top 1000
TEXTO HUMANO típico:
"El 🟢gato🟢 🟣saltó🟣 por 🟢la🟢 🔴ventana🟡 hacia 🟡el🟢 🟣enmarañado🟣 jardín"
→ Mezcla de colores: muchas elecciones inesperadas
TEXTO IA típico:
"El 🟢gato🟢 🟢saltó🟢 por 🟢la🟢 🟢ventana🟢 hacia 🟢el🟢 🟢bonito🟢 🟢jardín🟢"
→ Predominio de verde: palabras de alta probabilidadUso forense de GLTR:
- Visualizar secciones sospechosas de un documento
- Identificar transiciones entre texto humano y texto IA
- Herramienta pedagógica para explicar al tribunal cómo funciona la detección
- Complementar resultados de herramientas automatizadas
Métodos de watermarking (marcas de agua)
C2PA (Coalition for Content Provenance and Authenticity)
C2PA es un estándar abierto para la procedencia de contenido digital:
ESTÁNDAR C2PA
Objetivo:
Proporcionar una cadena de procedencia verificable
para contenido digital, incluyendo texto generado por IA.
Funcionamiento:
1. El sistema que genera el contenido firma digitalmente
los metadatos de procedencia
2. Los metadatos incluyen:
- Quién creó el contenido
- Con qué herramienta
- Cuándo se creó
- Si intervino IA en su generación
- Cadena de modificaciones posteriores
3. Los metadatos están criptográficamente vinculados
al contenido (no se pueden alterar sin invalidarlos)
Adopción (marzo 2026):
- Adobe: Photoshop, Premiere, Firefly
- Microsoft: Bing Image Creator, Copilot
- Google: Gemini (parcial)
- OpenAI: DALL-E, GPT (parcial)
- Sony, Nikon, Canon (en cámaras)
- BBC, New York Times (en publicaciones)Aplicación a documentos de texto:
| Formato | Soporte C2PA | Estado |
|---|---|---|
| Sí (Adobe Acrobat) | Implementado | |
| DOCX | Parcial (Microsoft 365) | En desarrollo |
| Imágenes con texto | Sí (PNG, JPEG, AVIF) | Implementado |
| HTML | En desarrollo | Propuesta de estándar |
| Texto plano | No | No aplicable directamente |
| En desarrollo | Propuesta |
Limitaciones de C2PA para texto:
- Solo funciona si el proveedor implementa el estándar
- Copiar-pegar texto elimina los metadatos C2PA
- No protege contra captura de pantalla y retranscripción
- Adopción aún parcial en generadores de texto
SynthID (Google DeepMind)
SynthID es un sistema de watermarking propietario de Google:
SYNTHID PARA TEXTO
Funcionamiento:
1. Durante la generación de texto, SynthID modifica
sutilmente la distribución de probabilidad de
los tokens seleccionados
2. La modificación sigue un patrón pseudoaleatorio
determinado por una clave secreta
3. Un detector con la clave puede identificar
el patrón estadístico
4. Sin la clave, el patrón es invisible
Propiedades:
- Imperceptible: no afecta la calidad del texto
- Robusto: resiste edición menor y parafraseo parcial
- Estadístico: detección probabilística, no binaria
- Escalable: aplicable en tiempo de generación sin coste
Limitaciones:
- Solo funciona en Gemini (modelos de Google)
- Requiere acceso al detector propietario
- Vulnerable a parafraseo extensivo
- No es estándar abiertoComparativa de sistemas de watermarking:
| Sistema | Proveedor | Estándar | Detección | Robustez |
|---|---|---|---|---|
| C2PA | Coalición abierta | Abierto | Verificación de metadatos | Media (copy-paste elimina) |
| SynthID | Propietario | Análisis estadístico | Alta (resiste edición menor) | |
| Kirchenbauer | Académico | Abierto | Test estadístico | Media-alta |
| Distillation-based | Varios | Varía | Clasificador | Variable |
| OpenAI watermark | OpenAI | Propietario | API de verificación | En desarrollo |
El watermarking es complementario, no sustitutivo
El watermarking solo funciona si el generador del texto implementa la marca de agua. Para texto generado por modelos sin watermarking, modelos locales (Llama, Mistral) o texto generado antes de la implementación, se necesitan métodos estadísticos y basados en ML.
Precisión por herramienta e idioma
Comparativa de herramientas (marzo 2026)
Precisión en inglés:
| Herramienta | GPT-4/4o | Claude 3.5/4 | Gemini 1.5/2 | Llama 3.x | Promedio |
|---|---|---|---|---|---|
| GPTZero | 97.2% | 94.8% | 93.1% | 91.5% | 94.2% |
| Originality.ai | 96.5% | 93.2% | 91.8% | 90.1% | 92.9% |
| Copyleaks | 95.1% | 92.7% | 90.4% | 89.2% | 91.9% |
| Turnitin AI | 98.1% | 95.4% | 94.2% | 92.8% | 95.1% |
| Binoculars | 93.7% | 91.2% | 89.4% | 87.6% | 90.5% |
| Winston AI | 94.3% | 91.8% | 89.9% | 88.4% | 91.1% |
Precisión en español:
| Herramienta | GPT-4/4o | Claude 3.5/4 | Gemini 1.5/2 | Llama 3.x | Promedio |
|---|---|---|---|---|---|
| GPTZero | 91.4% | 87.2% | 85.6% | 82.1% | 86.6% |
| Originality.ai | 88.7% | 84.5% | 82.3% | 79.8% | 83.8% |
| Copyleaks | 87.2% | 83.8% | 81.5% | 78.4% | 82.7% |
| Turnitin AI | 89.5% | 85.1% | 83.7% | 80.9% | 84.8% |
| Binoculars | 85.3% | 82.1% | 79.8% | 76.5% | 80.9% |
| Winston AI | 83.6% | 80.4% | 78.2% | 75.1% | 79.3% |
Diferencia inglés vs. español:
| Herramienta | Precisión inglés | Precisión español | Diferencia |
|---|---|---|---|
| GPTZero | 94.2% | 86.6% | -7.6% |
| Originality.ai | 92.9% | 83.8% | -9.1% |
| Copyleaks | 91.9% | 82.7% | -9.2% |
| Turnitin AI | 95.1% | 84.8% | -10.3% |
| Binoculars | 90.5% | 80.9% | -9.6% |
| Winston AI | 91.1% | 79.3% | -11.8% |
| Media | 92.6% | 83.0% | -9.6% |
La brecha del idioma español
En promedio, las herramientas de detección son un 9.6% menos precisas en español que en inglés. Esto se debe a que la mayoría de modelos de entrenamiento y datos de referencia están en inglés. Para un análisis forense fiable en español, es imprescindible usar múltiples herramientas y complementar con análisis manual estilométrico.
Factores que afectan la precisión
| Factor | Impacto en precisión | Dirección |
|---|---|---|
| Longitud del texto | Muy alto | Más largo = más preciso |
| Idioma | Alto | Inglés > español > otros |
| Modelo generador | Alto | Modelos grandes más detectables |
| Temperature | Medio-alto | Temperature baja más detectable |
| Edición humana posterior | Alto | Reduce detección significativamente |
| Dominio temático | Medio | Texto técnico/legal más difícil |
| Mezcla humano/IA | Muy alto | Reduce drásticamente la detección |
| Herramientas de parafraseo | Alto | Reduce detección |
| Traducción | Medio | Introduce artefactos pero reduce patrones IA |
| Fecha del modelo | Medio | Modelos más nuevos más difíciles |
Precisión por longitud del texto (GPTZero, español):
| Longitud | Precisión | Falsos positivos |
|---|---|---|
| < 100 palabras | 62.3% | 12.1% |
| 100-250 palabras | 74.8% | 8.4% |
| 250-500 palabras | 83.2% | 5.7% |
| 500-1000 palabras | 88.9% | 4.2% |
| 1000-2500 palabras | 92.1% | 3.1% |
| > 2500 palabras | 94.7% | 2.3% |
Tasas de error: falsos positivos y negativos
Falsos positivos (texto humano clasificado como IA):
| Tipo de texto humano | Tasa de falso positivo | Motivo |
|---|---|---|
| Texto académico formal | 8-15% | Perplejidad baja, estructura formulaica |
| Texto legal/normativo | 10-18% | Vocabulario predecible, estructura fija |
| Texto traducido | 7-12% | Paráfrasis y estructura de traducción |
| Texto de hablantes no nativos | 12-20% | Vocabulario limitado, estructuras simples |
| Texto con gramática revisada (Grammarly) | 6-10% | Correcciones que uniformizan el estilo |
| Texto corporativo estándar | 5-9% | Plantillas y estilo corporativo |
Falsos negativos (texto IA clasificado como humano):
| Técnica de evasión | Tasa de falso negativo | Contramedida |
|---|---|---|
| IA con temperature alta | 15-25% | Análisis de contenido (alucinaciones) |
| Edición humana del 30%+ | 20-40% | Análisis por secciones |
| Herramienta de reescritura | 25-45% | Detección de artefactos de reescritura |
| Traducción ida-vuelta | 15-30% | Detección de artefactos de traducción |
| Fine-tuning personalizado | 30-50% | Análisis de distribución de tokens |
| Mezcla 50/50 humano-IA | 35-55% | Segmentación por estilo |
Análisis de metadatos de documentos
Microsoft Word (.docx)
Los documentos Word contienen metadatos ricos que pueden revelar el uso de IA:
<!-- core.xml — Metadatos básicos -->
<cp:coreProperties>
<dc:creator>Juan García</dc:creator>
<cp:lastModifiedBy>Juan García</cp:lastModifiedBy>
<dcterms:created>2026-03-15T10:22:00Z</dcterms:created>
<dcterms:modified>2026-03-15T10:47:00Z</dcterms:modified>
<cp:revision>3</cp:revision>
</cp:coreProperties>
<!-- app.xml — Metadatos de aplicación -->
<Properties>
<Application>Microsoft Word 365</Application>
<TotalTime>25</TotalTime> <!-- 25 minutos de edición -->
<Pages>15</Pages>
<Words>5247</Words>
<Characters>29912</Characters>
<Paragraphs>73</Paragraphs>
</Properties>
<!-- ANÁLISIS FORENSE -->
<!-- 5247 palabras en 25 minutos = 210 palabras/minuto -->
<!-- Velocidad promedio de escritura humana: 30-40 pal/min -->
<!-- Velocidad promedio de copy-paste: 200+ pal/min -->
<!-- → INDICADOR DE COPY-PASTE (probable IA) -->Indicadores clave en Word:
| Indicador | Valor normal (humano) | Sospechoso (IA) |
|---|---|---|
| Tiempo de edición | 1-2 min/100 palabras | < 0.3 min/100 palabras |
| Número de revisiones | 20-100+ por documento | < 10 |
| Bloques rsid | Muchos, variados | Pocos, grandes |
| Número de guardados | Múltiples (autoguardado) | 1-3 |
| Track changes | Presentes si hay revisión | Ausentes |
| Comentarios | Posibles | Generalmente ausentes |
ANÁLISIS FORENSE DE PDF
1. METADATOS ESTÁNDAR
/Title: (título del documento)
/Author: (autor)
/Creator: (aplicación que creó el PDF)
/Producer: (software que generó el PDF)
/CreationDate: (fecha de creación)
/ModDate: (fecha de modificación)
2. ANÁLISIS DE FUENTES
- Fuentes embebidas vs. referenciadas
- Tipo de fuente (indica origen):
· Calibri, Aptos → Microsoft Word
· Liberation Sans → LibreOffice
· Roboto, Open Sans → Google Docs/web
· Times New Roman → Múltiples orígenes
3. ESTRUCTURA DE CONTENIDO
- Texto como stream vs. texto como imagen
- Capas de contenido (originales vs. añadidas)
- Marcadores y estructura de navegación
- Formularios y campos editables
4. INDICADORES DE COPY-PASTE EN PDF
- Texto sin estructura de párrafos nativa
- Inconsistencias en el interlineado
- Mezcla de fuentes o tamaños sin justificación
- Ausencia de estilos de documentoGoogle Docs
Google Docs mantiene un historial de revisiones excepcionalmente detallado:
HISTORIAL DE REVISIONES — GOOGLE DOCS
El historial registra CADA PULSACIÓN DE TECLA:
ESCRITURA HUMANA TÍPICA:
14:22:01 - "E" (1 carácter)
14:22:01 - "l" (1 carácter)
14:22:01 - " " (1 carácter)
14:22:02 - "a" (1 carácter)
14:22:02 - "n" (1 carácter)
14:22:02 - "á" (1 carácter) ← pausa para tilde
14:22:03 - "l" (1 carácter)
... (continúa carácter a carácter con pausas naturales)
14:22:15 - Backspace x3 ← corrección humana típica
14:22:17 - "isi" (3 caracteres, corrección)
→ Patrón: 2-5 caracteres/segundo, con pausas y correcciones
PEGADO DE TEXTO IA:
14:22:01 - Pegado: "El análisis forense digital es una
disciplina que se encarga de la identificación,
preservación, análisis y presentación de evidencia
digital en procedimientos judiciales. Esta disciplina
ha cobrado una importancia creciente en el contexto
actual de digitalización..." (847 caracteres de una vez)
14:22:30 - Sin actividad (29 segundos, leyendo lo pegado)
14:23:05 - Pegado: "Los principales métodos de análisis
incluyen..." (623 caracteres de una vez)
→ Patrón: Bloques grandes pegados con pausas entre ellos
ANÁLISIS FORENSE:
- Obtener historial via Google Docs API
- Detectar bloques de pegado (>50 caracteres de una vez)
- Medir velocidad de "escritura" por sección
- Identificar patrones de corrección (humanos corrigen más)
- Mapear timeline: pegado → lectura → pequeña edición → pegadoGoogle Docs: la mejor evidencia de metadatos
El historial de revisiones de Google Docs es la evidencia de metadatos más poderosa para detectar uso de IA. A diferencia de Word (que solo guarda metadatos agregados), Google Docs registra cada acción individual con timestamp, permitiendo reconstruir exactamente cómo se escribió el documento.
Estilometría computacional
Fundamentos
La estilometría es la ciencia de analizar el estilo de escritura para atribuir autoría. Aplicada a la detección de texto IA, permite comparar el estilo de un texto sospechoso con el estilo conocido de un autor humano:
PROCESO ESTILOMÉTRICO
1. CORPUS DE REFERENCIA
Recopilar textos verificados del supuesto autor:
- Emails anteriores
- Documentos de trabajo previos
- Escritos académicos
- Mensajes de chat
Mínimo: 5.000-10.000 palabras de referencia
2. EXTRACCIÓN DE CARACTERÍSTICAS
Para cada texto (referencia y sospechoso):
a) Léxicas: vocabulario, riqueza, frecuencias
b) Sintácticas: longitud oraciones, complejidad
c) Caracteres: uso puntuación, mayúsculas, espacios
d) Funcionales: preposiciones, artículos, conjunciones
e) Estructurales: párrafos, listas, organización
3. COMPARACIÓN
Medir distancia entre perfiles estilísticos:
- Delta de Burrows (la más usada)
- Distancia coseno
- Divergencia de Kullback-Leibler
- Distancia euclidiana normalizada
4. CONCLUSIÓN
¿El texto sospechoso está más cerca del perfil
del autor humano o de un perfil típico de LLM?Delta de Burrows
El Delta de Burrows es la métrica estilométrica más utilizada y validada:
Delta de Burrows:
Δ(A, B) = (1/n) × Σ |z_A(f_i) - z_B(f_i)|
donde:
- f_i = frecuencia de la palabra funcional i
- z_A(f_i) = z-score de f_i en el texto A
- z_B(f_i) = z-score de f_i en el texto B
- n = número de palabras funcionales analizadas
Interpretación:
- Δ bajo = estilos similares (mismo autor probable)
- Δ alto = estilos diferentes (autores diferentes)
En detección IA:
- Calcular Δ(texto_sospechoso, corpus_autor)
- Calcular Δ(texto_sospechoso, corpus_LLM)
- Si Δ_autor >> Δ_LLM → probable IA
- Si Δ_autor << Δ_LLM → probable humanoHerramientas de estilometría
| Herramienta | Lenguaje | Características | Uso forense |
|---|---|---|---|
| Stylo | R | Delta de Burrows, PCA, clustering | Investigación académica |
| JGAAP | Java | Múltiples métricas y clasificadores | Análisis forense |
| pyStylometry | Python | Flexible, scriptable | Automatización |
| Stylometry.org | Web | Accesible, sin instalación | Análisis rápido |
| LIWC | Multiplataforma | Análisis psicológico del lenguaje | Perfil de autor |
| Signature | Python | Especializado en atribución | Atribución de autoría |
Caso práctico de estilometría
ANÁLISIS ESTILOMÉTRICO — CASO REAL
Texto sospechoso: Artículo de opinión (2.100 palabras)
Corpus de referencia del autor: 15 artículos previos (31.000 palabras)
Corpus LLM de referencia: 50 textos GPT-4 (50.000 palabras)
RESULTADOS:
1. DELTA DE BURROWS
Δ(sospechoso, autor_humano) = 1.42
Δ(sospechoso, corpus_GPT4) = 0.38
→ El texto está MUCHO más cerca del estilo GPT-4
2. LONGITUD DE ORACIONES
Autor humano: μ=18.3, σ=12.7 (burstiness=0.69)
Texto sospechoso: μ=21.1, σ=5.4 (burstiness=0.26)
GPT-4 típico: μ=20.8, σ=5.1 (burstiness=0.25)
→ Burstiness del sospechoso coincide con GPT-4
3. PALABRAS FUNCIONALES (top 5 diferencias)
Palabra | Autor | Sospechoso | GPT-4
"pero" | 1.8% | 0.4% | 0.5%
"además" | 0.2% | 1.1% | 1.3%
"sin | 0.9% | 0.3% | 0.4%
embargo"
"es | 0.1% | 0.8% | 0.9%
importante"
"cabe" | 0.0% | 0.6% | 0.7%
→ Perfil funcional coincide con GPT-4
4. VOCABULARIO ÚNICO
Autor humano: 347 hapax (42% del vocabulario)
Texto sospechoso: 189 hapax (29% del vocabulario)
GPT-4 típico: 195 hapax (31% del vocabulario)
→ Riqueza léxica del sospechoso es típica de GPT-4
CONCLUSIÓN ESTILOMÉTRICA:
El perfil estilístico del texto sospechoso presenta
una distancia estadísticamente significativa respecto
al estilo habitual del autor, y coincide con los
patrones típicos de GPT-4 en todas las métricas
analizadas. Nivel de confianza: alto (>90%).Metodología forense para detección de texto IA
Protocolo completo
Recepción del encargo: Documentar por escrito qué se pide analizar, quién lo solicita (orden judicial, parte procesal, institución educativa), y cuáles son las preguntas concretas a responder.
Preservación de evidencia: Obtener el documento original en su formato nativo. Calcular hash SHA-256. Crear copia de trabajo. Si es Google Docs, solicitar exportación del historial de revisiones vía API. Documentar toda la cadena de custodia.
Análisis automatizado multi-herramienta: Ejecutar mínimo 3 herramientas de detección. Documentar versión exacta de cada herramienta y fecha de análisis. Capturar pantalla de cada resultado con timestamp. Registrar configuración utilizada.
Análisis de metadatos: Extraer metadatos con ExifTool/Apache Tika. Analizar tiempos de edición vs. extensión del documento. Examinar bloques de revisión (rsid en Word). Si disponible, analizar historial de Google Docs carácter por carácter.
Análisis estilométrico: Si hay corpus de referencia del supuesto autor, calcular Delta de Burrows y métricas de distancia. Analizar perplejidad, burstiness y entropía manualmente. Comparar patrones de vocabulario funcional. Medir riqueza léxica y distribución de n-gramas.
Verificación de contenido: Comprobar todas las citas, referencias y datos estadísticos. Buscar alucinaciones (información falsa pero plausible). Verificar coherencia interna del documento. Detectar inconsistencias con el conocimiento del supuesto autor.
Análisis por secciones: No analizar solo el documento completo. Segmentar por secciones y analizar cada una individualmente. Detectar transiciones de estilo (posible mezcla humano/IA). Identificar secciones con perplejidad significativamente diferente.
Triangulación de resultados: Consolidar hallazgos de todas las fuentes de análisis. Identificar convergencias (indicadores que apuntan en la misma dirección). Documentar divergencias (indicadores contradictorios). Determinar nivel de confianza global.
Elaboración del informe: Redactar informe pericial con estructura clara. Incluir metodología, herramientas y versiones. Documentar todas las limitaciones. Expresar conclusiones como probabilidad, no como certeza. Incluir anexos con datos brutos y capturas.
Nivel de confianza y comunicación de resultados
ESCALA DE CONFIANZA PARA INFORMES PERICIALES
NIVEL 5 — MUY ALTA CONFIANZA (>95%)
"Con un alto grado de probabilidad, el texto fue generado
por un modelo de inteligencia artificial."
Requisitos: Convergencia de todas las herramientas + metadatos
+ estilometría + alucinaciones verificadas.
NIVEL 4 — ALTA CONFIANZA (85-95%)
"Los indicios analizados son consistentes con la generación
por inteligencia artificial, con alta probabilidad."
Requisitos: Convergencia de herramientas + al menos 2
indicadores independientes adicionales.
NIVEL 3 — CONFIANZA MEDIA (70-85%)
"Existen indicios significativos de que el texto fue
generado total o parcialmente por IA, aunque no es
posible afirmarlo con certeza."
Requisitos: Mayoría de herramientas coinciden pero
hay factores atenuantes.
NIVEL 2 — CONFIANZA BAJA (50-70%)
"Los resultados del análisis no son concluyentes.
Existen indicios tanto a favor como en contra de
la generación por IA."
Nota: Documentar todos los factores y dejar la
valoración al tribunal.
NIVEL 1 — NO CONCLUYENTE (<50%)
"El análisis no permite determinar si el texto fue
generado por IA. Las herramientas y técnicas utilizadas
no proporcionan resultados significativos."
Nota: Ser honesto. Un resultado no concluyente es
un resultado válido e importante.Marco legal en España
Ámbito académico
| Situación | Normativa aplicable | Consecuencia |
|---|---|---|
| TFG/TFM con IA | Normativa académica universitaria | Suspenso, repetición, expediente |
| Examen con IA | Reglamento de evaluación | Anulación, sanción disciplinaria |
| Tesis doctoral con IA | Normativa de doctorado | Revocación del título |
| Artículo científico | Políticas editoriales | Retracción, sanción ANECA |
| Oposiciones | Ley del Estatuto del Empleado Público | Exclusión del proceso selectivo |
Ámbito judicial
| Situación | Base legal | Consecuencia |
|---|---|---|
| Escrito procesal con IA no declarada | Art. 247 LEC (mala fe) | Multa 180-6.000 € |
| Citas jurisprudenciales falsas (alucinación) | Art. 247 LEC + responsabilidad | Multa + posible inhabilitación |
| Informe pericial generado por IA | Arts. 335-352 LEC | Nulidad + art. 459 CP (falso testimonio) |
| Documento contractual defectuoso por IA | Art. 1101 CC (daños) | Indemnización por daños |
| Falsedad documental | Arts. 390-395 CP | 6 meses-3 años prisión |
Instrucción CGPJ 2/2026
INSTRUCCIÓN 2/2026 DEL CGPJ
Sobre el uso de inteligencia artificial en la
administración de justicia
Aspectos relevantes para detección de texto IA:
1. TRANSPARENCIA
- Obligación de declarar el uso de IA en escritos
y resoluciones judiciales
- Los profesionales que usen IA deben indicarlo
2. RESPONSABILIDAD
- El profesional que usa IA es responsable del
contenido generado
- No puede delegar la responsabilidad en la herramienta
3. VERIFICACIÓN
- Obligación de verificar la exactitud de los datos
generados por IA
- Especial atención a citas jurisprudenciales
4. PRUEBA PERICIAL
- Se reconoce la validez de informes periciales
sobre detección de texto IA
- El perito debe documentar metodología y limitacionesAI Act y obligaciones de transparencia
OBLIGACIONES DEL AI ACT PARA TEXTO GENERADO
Artículo 50.2:
"Los proveedores de sistemas de IA que generen contenido
sintético de texto que se publique con el propósito de
informar al público sobre cuestiones de interés público
deberán garantizar que el contenido sintético esté marcado
de forma legible por máquina y pueda detectarse como
generado o manipulado artificialmente."
Artículo 50.4:
"Los responsables del despliegue de un sistema de IA que
genere o manipule texto que constituya un deep fake
deberán revelar que el contenido ha sido generado o
manipulado artificialmente."
Sanciones (art. 99):
- Infracciones graves: hasta 15 millones €
o el 3% de la facturación mundial
- Infracciones muy graves: hasta 35 millones €
o el 7% de la facturación mundialFalsedad documental (arts. 390-395 CP)
| Artículo | Supuesto | Pena | Aplicación a IA |
|---|---|---|---|
| 390 | Autoridad o funcionario que falsifica documento público | 3-6 años + inhabilitación | Resolución judicial generada por IA con datos falsos |
| 392 | Particular que falsifica documento público | 6 meses-3 años | Escrito procesal con citas falsas por IA |
| 395 | Falsificación de documento privado | 6 meses-2 años | Contrato/informe con datos falsos generados por IA |
Mala fe procesal y detección de IA
Varios juzgados en España y EEUU ya han sancionado a abogados por presentar escritos con citas jurisprudenciales inventadas por ChatGPT. El caso más mediático fue Mata v. Avianca (SDNY, 2023), donde el abogado fue multado con $5.000. En España, la Instrucción CGPJ 2/2026 establece la obligación de declarar y verificar el uso de IA en escritos procesales.
Estándares internacionales
ISO y normativa técnica
| Estándar | Área | Relevancia |
|---|---|---|
| ISO 27037 | Evidencia digital | Marco de preservación aplicable |
| ISO/IEC 42001 | Gestión de IA | Sistema de gestión para organizaciones que usan IA |
| ISO/IEC 23894 | Gestión de riesgos IA | Evaluación de riesgos incluyendo detección |
| NIST AI RMF | Framework de riesgos IA | Estándar estadounidense complementario |
| IEEE 2857 | Privacidad en IA | Requisitos de privacidad |
ENFSI (European Network of Forensic Science Institutes)
DIRECTRICES ENFSI PARA EVIDENCIA DIGITAL
Aplicables a análisis forense de texto IA:
1. COMPETENCIA DEL PERITO
- Formación documentada en el área de análisis
- Actualización continua de conocimientos
- Participación en pruebas de competencia
2. VALIDACIÓN DE MÉTODOS
- Toda herramienta de detección debe estar validada
- Documentar precisión, falsos positivos/negativos
- Realizar pruebas con muestras conocidas
3. ASEGURAMIENTO DE CALIDAD
- Procedimientos documentados
- Trazabilidad de todas las acciones
- Control de versiones de herramientas
4. EXPRESIÓN DE RESULTADOS
- Usar escalas de probabilidad estandarizadas
- Comunicar incertidumbre y limitaciones
- No hacer afirmaciones absolutasLimitaciones y consideraciones éticas
Limitaciones técnicas fundamentales
| Limitación | Descripción | Impacto |
|---|---|---|
| Imposibilidad teórica | No existe prueba de que la detección perfecta sea posible | Siempre habrá incertidumbre |
| Carrera armamentística | Modelos mejoran → detección mejora → evasión mejora | Nunca será un problema “resuelto” |
| Sesgo de entrenamiento | Herramientas entrenadas mayoritariamente en inglés | Menor precisión en otros idiomas |
| Sesgo contra no nativos | Escritores no nativos producen texto más “regular” | Riesgo de discriminación |
| Edición humana | Cualquier edición reduce la detectabilidad | Textos mixtos son los más difíciles |
| Modelos futuros | Modelos aún no lanzados podrían ser indetectables | Herramientas actuales podrían quedar obsoletas |
Consideraciones éticas
DILEMAS ÉTICOS EN DETECCIÓN DE TEXTO IA
1. PRESUNCIÓN DE INOCENCIA
¿Debe asumirse que un texto es humano hasta que
se demuestre lo contrario?
→ En contexto judicial: SÍ (presunción de inocencia)
→ En contexto académico: depende de la política
2. DERECHO A LA HERRAMIENTA
¿Tiene un autor derecho a usar IA sin declararlo?
→ Depende del contexto y la normativa aplicable
→ El AI Act impone obligaciones de transparencia
→ Pero no todo uso de IA es ilegítimo
3. DISCRIMINACIÓN POR IDIOMA
Las herramientas son menos precisas en español.
¿Es justo aplicar el mismo estándar?
→ El perito debe comunicar esta limitación
→ Ajustar las conclusiones al nivel de precisión real
4. ESTIGMATIZACIÓN
Un falso positivo puede destruir una carrera académica
o profesional. ¿Se debe usar detección de IA como
única prueba?
→ NUNCA como prueba única
→ Siempre como parte de un análisis más amplio
→ Comunicar explícitamente la tasa de falsos positivos
5. ACCESO DESIGUAL
Las herramientas de evasión son accesibles para
quien pueda pagarlas. ¿Crea esto una inequidad?
→ La detección es más fácil contra texto IA "bruto"
→ La evasión sofisticada deja otros rastrosNunca acusar basándose solo en una herramienta
Acusar a alguien de usar IA basándose únicamente en el resultado de una herramienta automatizada es irresponsable y potencialmente injusto. Los falsos positivos existen (5-20% según herramienta e idioma). Cualquier conclusión debe basarse en la convergencia de múltiples indicadores independientes, y el informe debe documentar la tasa de error de cada método utilizado.
Futuro de la detección de texto IA
Tendencias 2026-2028
| Tendencia | Descripción | Impacto esperado |
|---|---|---|
| Watermarking obligatorio | Regulación exigirá marcas de agua en texto IA | Facilitará detección si se implementa |
| Modelos más “humanos” | GPT-5, Claude 5 producirán texto menos detectable | Técnicas actuales perderán eficacia |
| Detección multimodal | Analizar texto + metadatos + comportamiento conjunto | Mayor precisión por triangulación |
| IA para detectar IA | Clasificadores cada vez más sofisticados | Carrera armamentística continua |
| Estándares forensics | ISO específico para detección de contenido IA | Mayor rigor metodológico |
| Regulación armonizada | AI Act + normativa nacional | Marco legal claro |
| Herramientas locales | Detección sin enviar texto a la nube | Mejor privacidad |
| Detección en español | Modelos específicos para español | Reducción de la brecha de precisión |
Tecnologías emergentes
TECNOLOGÍAS EN DESARROLLO
1. DETECCIÓN POR EMBEDDING
Análisis del espacio vectorial de embeddings:
- Los textos IA ocupan regiones específicas
del espacio de embeddings
- Clasificación por posición geométrica
- Prometedor pero aún experimental
2. ANÁLISIS TEMPORAL DE ESCRITURA
Sensores que registran el proceso de escritura:
- Dinámica de pulsaciones de teclado
- Movimientos del ratón
- Pausas y correcciones
- Imposible de falsificar retrospectivamente
3. BLOCKCHAIN DE CONTENIDO
Registro inmutable de autoría:
- Hash del contenido en blockchain
- Timestamp verificable
- Cadena de modificaciones
- Interoperable con C2PA
4. VERIFICACIÓN ZERO-KNOWLEDGE
Demostrar autoría sin revelar el contenido:
- Pruebas criptográficas de proceso de escritura
- Privacidad del contenido preservada
- Verificación por terceros
5. CLASSIFICADORES ESPECÍFICOS POR IDIOMA
Modelos entrenados exclusivamente en español:
- Mayor precisión para textos en español
- Consideración de regionalismos
- Adaptación a textos legales españolesRecomendaciones prácticas
Para el perito informático
Mantener un kit de herramientas actualizado: Revisar trimestralmente las herramientas de detección. Actualizar versiones y calibrar con muestras conocidas. Incorporar nuevas herramientas a medida que se publiquen.
Usar siempre múltiples métodos: Nunca basar conclusiones en una sola herramienta o técnica. Mínimo: 3 herramientas automatizadas + análisis de metadatos + análisis manual. Ideal: añadir estilometría si hay corpus de referencia.
Documentar exhaustivamente: Versiones de herramientas, configuraciones, fechas de análisis. Capturas de pantalla con timestamp de cada resultado. Cadena de custodia completa de la evidencia.
Comunicar limitaciones honestamente: Expresar resultados como probabilidad, no certeza. Incluir tasas de falsos positivos de cada herramienta. Señalar factores que podrían afectar la fiabilidad (idioma, longitud, dominio).
Conocer el marco legal actualizado: AI Act, Instrucción CGPJ 2/2026, jurisprudencia reciente. Las obligaciones de transparencia evolucionan rápidamente.
Formación continua: Asistir a conferencias de NLP y forense digital. Leer papers actualizados de ACL, EMNLP, NeurIPS. Practicar con muestras conocidas para calibrar el criterio.
Ser imparcial: El perito trabaja para la verdad, no para quien le contrata. Si el análisis no es concluyente, debe decirlo claramente. Un resultado honesto de incertidumbre es más valioso que una conclusión forzada.
Considerar el contexto completo: La detección técnica es solo una parte. El comportamiento del supuesto autor, el tiempo disponible, la consistencia con trabajos anteriores, y la verificación del contenido son complementos esenciales.
Para instituciones educativas
| Recomendación | Prioridad | Implementación |
|---|---|---|
| Política clara de uso de IA | Crítica | Definir qué está permitido y qué no |
| Formación al profesorado | Alta | Talleres sobre herramientas de detección |
| Evaluaciones adaptadas | Alta | Diseñar evaluaciones resistentes a IA |
| Herramienta institucional | Media | Licencia de GPTZero o Turnitin AI |
| Protocolo de investigación | Alta | Procedimiento ante sospecha de uso de IA |
| Proporcionalidad de sanciones | Alta | No criminalizar, educar |
Para empresas
| Recomendación | Prioridad | Implementación |
|---|---|---|
| Política de uso de IA | Crítica | Definir usos aceptables e inaceptables |
| Revisión de documentos críticos | Alta | Verificar contratos, informes regulatorios |
| Cumplimiento AI Act | Crítica | Auditar sistemas IA propios |
| Formación a empleados | Alta | Uso responsable de IA generativa |
| Cláusulas contractuales | Media | Requisitos de autoría en contratos con proveedores |
Para abogados
| Recomendación | Prioridad | Implementación |
|---|---|---|
| Declarar uso de IA | Crítica | Transparencia ante el tribunal |
| Verificar TODAS las citas | Crítica | Comprobar sentencias y legislación citadas |
| Revisar coherencia | Alta | Leer y verificar todo texto generado por IA |
| Conocer la Instrucción CGPJ 2/2026 | Alta | Cumplir obligaciones de transparencia |
| Contratar perito si es necesario | Media | Para casos que requieran análisis forense |
Conclusión
La detección de texto generado por inteligencia artificial es un campo técnico complejo y en rápida evolución que se ha convertido en una necesidad práctica en múltiples ámbitos: educación, justicia, empresa y administración pública. Ninguna herramienta ni técnica es infalible, y la precisión varía significativamente según el idioma (con una brecha del 9.6% entre inglés y español), la longitud del texto, el modelo generador y las técnicas de evasión empleadas.
Para el perito informático, la detección de texto IA requiere un enfoque multidisciplinar que combine herramientas automatizadas, análisis de metadatos, estilometría computacional, verificación de contenido y análisis contextual. La honestidad sobre las limitaciones y la expresión de resultados en términos de probabilidad (no de certeza) son esenciales para que el informe pericial tenga valor y credibilidad ante tribunales.
El marco legal evoluciona rápidamente: el AI Act impone obligaciones de transparencia y marcado de contenido generado por IA, la Instrucción CGPJ 2/2026 regula el uso de IA en la administración de justicia, y la jurisprudencia comienza a abordar las consecuencias del uso no declarado de IA. El perito informático forense especializado en esta materia ocupa una posición cada vez más relevante en el sistema judicial.
Referencias y fuentes
Mitchell, E. et al. (2023). “DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature”. Proceedings of ICML 2023. Método estadístico de detección.
Hans, A. et al. (2024). “Binoculars: Zero-Shot Detection of LLM-Generated Text”. arXiv:2401.12070. Herramienta open source de detección.
Weber-Wulff, D. et al. (2023). “Testing of Detection Tools for AI-Generated Text”. International Journal for Educational Integrity, 19(26). Evaluación comparativa de herramientas.
Kirchenbauer, J. et al. (2023). “A Watermark for Large Language Models”. Proceedings of ICML 2023. Watermarking estadístico de texto IA.
Sadasivan, V. et al. (2023). “Can AI-Generated Text be Reliably Detected?”. arXiv:2303.11156. Análisis de limitaciones fundamentales.
C2PA (Coalition for Content Provenance and Authenticity). “Technical Specification v2.1” (2025). Estándar de procedencia de contenido digital.
Google DeepMind (2024). “SynthID Text: Scalable Watermarking for Language Models”. Documentación técnica de SynthID.
Reglamento (UE) 2024/1689 del Parlamento Europeo y del Consejo (AI Act). Artículo 50 sobre obligaciones de transparencia.
Instrucción 2/2026 del Consejo General del Poder Judicial. Directrices sobre uso de IA en la administración de justicia.
Burrows, J. (2002). “‘Delta’: A Measure of Stylistic Difference and a Guide to Likely Authorship”. Literary and Linguistic Computing, 17(3), 267-287. Fundamento de la estilometría computacional.
Liang, W. et al. (2024). “Monitoring AI-Modified Content at Scale”. arXiv:2403.07183. Detección a escala de contenido modificado por IA.
Tian, E. (2023-2026). “GPTZero: Detection of AI-Generated Text”. Documentación técnica y reportes de precisión.
Última actualización: 30 de marzo de 2026 Categoría: Técnico Código: TEC-065
Preguntas Frecuentes
¿Cómo puedo saber si un texto fue escrito por ChatGPT?
Existen herramientas como GPTZero, Originality.ai y Copyleaks que analizan patrones estadísticos del texto. Sin embargo, ninguna es 100% fiable. Para un resultado más robusto, se recomienda combinar varias herramientas con análisis manual de estilo, verificación de contenido y, si está disponible, análisis de metadatos del documento.
¿Son fiables las herramientas de detección de texto IA en español?
La precisión en español es entre un 5% y un 15% menor que en inglés, dependiendo de la herramienta. GPTZero alcanza un 85-92% en español, mientras que en inglés supera el 95%. Factores como la longitud del texto, el modelo de IA utilizado y la edición humana posterior afectan significativamente a la fiabilidad.
¿Se puede usar un informe de detección de texto IA como prueba en un juicio?
Sí, siempre que sea elaborado por un perito cualificado que aplique una metodología rigurosa, utilice múltiples herramientas, documente las limitaciones y mantenga la cadena de custodia. Los tribunales valoran la transparencia sobre tasas de error y falsos positivos.
¿Qué consecuencias legales tiene hacer pasar texto de IA como propio?
Depende del contexto: en el ámbito académico, puede suponer la anulación del trabajo; en procedimientos judiciales, mala fe procesal (art. 247 LEC); en relaciones contractuales, posible incumplimiento; y con el AI Act, incumplimiento de obligaciones de transparencia con multas millonarias.
¿Necesitas un peritaje forense?
Si necesitas ayuda profesional con análisis forense digital, estoy aquí para ayudarte.
Solicitar Consulta Gratuita
