¿Cómo puedo saber si un texto fue escrito por ChatGPT?

Existen herramientas como GPTZero, Originality.ai y Copyleaks que analizan patrones estadísticos del texto. Sin embargo, ninguna es 100% fiable. Para un resultado más robusto, se recomienda combinar varias herramientas con análisis manual de estilo, verificación de contenido y, si está disponible, análisis de metadatos del documento.

¿Son fiables las herramientas de detección de texto IA en español?

La precisión en español es entre un 5% y un 15% menor que en inglés, dependiendo de la herramienta. GPTZero alcanza un 85-92% en español, mientras que en inglés supera el 95%. Factores como la longitud del texto, el modelo de IA utilizado y la edición humana posterior afectan significativamente a la fiabilidad.

¿Se puede usar un informe de detección de texto IA como prueba en un juicio?

Sí, siempre que sea elaborado por un perito cualificado que aplique una metodología rigurosa, utilice múltiples herramientas, documente las limitaciones y mantenga la cadena de custodia. Los tribunales valoran la transparencia sobre tasas de error y falsos positivos.

¿Qué consecuencias legales tiene hacer pasar texto de IA como propio?

Depende del contexto: en el ámbito académico, puede suponer la anulación del trabajo; en procedimientos judiciales, mala fe procesal (art. 247 LEC); en relaciones contractuales, posible incumplimiento; y con el AI Act, incumplimiento de obligaciones de transparencia con multas millonarias.

Detección de Texto IA - Herramientas y Métodos

¿Qué es la detección de texto IA?

La detección de texto IA es el campo técnico dedicado a determinar si un fragmento de texto fue producido total o parcialmente por un modelo de inteligencia artificial generativa (como GPT-4, Claude, Gemini, Llama o Mistral). Este campo combina técnicas estadísticas, aprendizaje automático, lingüística computacional y análisis de metadatos para identificar las huellas que los modelos de lenguaje dejan en el texto que generan.

La necesidad de detectar texto generado por IA ha crecido exponencialmente desde la popularización de ChatGPT en noviembre de 2022. En solo tres años, la detección de texto IA ha pasado de ser un problema académico a una necesidad práctica en educación, justicia, periodismo, empresa y administración pública.

Campo en constante evolución

La detección de texto IA es una carrera armamentística: a medida que los modelos de lenguaje mejoran y producen texto más “humano”, las herramientas de detección deben evolucionar. Las técnicas y precisiones descritas en este artículo reflejan el estado del arte en marzo de 2026 y pueden cambiar significativamente en meses.

Categorías de métodos de detección

Los métodos de detección se clasifican en tres grandes familias:

Categoría	Enfoque	Ventajas	Limitaciones
Estadísticos	Analizar propiedades matemáticas del texto	Interpretables, no requieren entrenamiento	Precisión limitada en textos cortos
Basados en ML	Clasificadores entrenados con textos humanos/IA	Alta precisión en condiciones óptimas	Caja negra, necesitan datos de entrenamiento
Watermarking	Marcas invisibles insertadas durante la generación	Muy alta precisión si están presentes	Requieren cooperación del proveedor
Híbridos	Combinación de las anteriores	Robustez por triangulación	Mayor complejidad y coste

Métodos estadísticos

Perplejidad

La perplejidad es la métrica más fundamental para la detección de texto IA. Mide cuán “sorprendente” resulta un texto para un modelo de lenguaje de referencia:

Definición matemática:

PPL(X) = exp(-1/N × Σ log P(x_i | x_1, ..., x_{i-1}))

donde:
- X = secuencia de tokens del texto
- N = número total de tokens
- P(x_i | ...) = probabilidad del token i dado el contexto

¿Por qué funciona?

Los LLM generan texto seleccionando tokens de alta probabilidad según su distribución aprendida. Por tanto, el texto generado por IA tiende a tener perplejidad baja cuando se evalúa con un modelo similar, porque sigue el camino de máxima probabilidad. Los humanos, en cambio, hacen elecciones menos predecibles: usan palabras inesperadas, construcciones idiomáticas personales y expresiones coloquiales que un modelo no priorizaría.

Perplejidad por tipo de texto:

Tipo de texto	Perplejidad típica	Interpretación
Texto ChatGPT (temperature 0.3)	5-12	Muy baja: fuerte indicador de IA
Texto ChatGPT (temperature 0.7)	12-25	Baja: indicador moderado de IA
Texto ChatGPT (temperature 1.0)	20-40	Zona ambigua
Texto legal/normativo humano	15-30	Baja por formalidad (falso positivo)
Escritura periodística humana	30-60	Media: zona normal humana
Escritura creativa/literaria	50-120	Alta: fuerte indicador humano
Conversación informal humana	60-150	Muy alta: indicador claro de humano
Poesía/escritura experimental	100-300+	Extrema: patrón humano

Perplejidad no es prueba absoluta

Un texto legal muy formal escrito por un abogado puede tener perplejidad tan baja como texto generado por IA, porque los textos legales siguen fórmulas y estructuras predecibles. La perplejidad siempre debe combinarse con otras métricas para evitar falsos positivos.

Burstiness (Explosividad)

La burstiness mide la variabilidad en la complejidad y longitud de las oraciones a lo largo del texto:

Cálculo de burstiness:

Burstiness = σ(S) / μ(S)

donde:
- S = {s_1, s_2, ..., s_n} (longitudes de oraciones)
- σ(S) = desviación estándar
- μ(S) = media

Variantes más sofisticadas incluyen:
- Burstiness de complejidad sintáctica (profundidad de árbol)
- Burstiness de riqueza léxica por ventana
- Burstiness multi-escala (oración, párrafo, sección)

Visualización comparativa:

LONGITUD DE ORACIONES — TEXTO HUMANO
│
│    ██
│    ██                          ████
│    ██  ██              ██      ████
│    ██  ██  ██      ██  ██  ██  ████  ██
│ ██ ██  ██  ██  ██  ██  ██  ██  ████  ██  ██
│ ██ ██  ██  ██  ██  ██  ██  ██  ████  ██  ██
└──────────────────────────────────────────────→
  1  2   3   4   5   6   7   8   9    10  11
  (Número de oración → altura = longitud)

Burstiness = 0.82 (alta variabilidad)

LONGITUD DE ORACIONES — TEXTO LLM
│
│
│    ██  ██  ██  ██  ██  ██  ██  ██  ██  ██
│    ██  ██  ██  ██  ██  ██  ██  ██  ██  ██
│ ██ ██  ██  ██  ██  ██  ██  ██  ██  ██  ██
│ ██ ██  ██  ██  ██  ██  ██  ██  ██  ██  ██
└──────────────────────────────────────────────→
  1  2   3   4   5   6   7   8   9    10  11

Burstiness = 0.21 (baja variabilidad)

Interpretación forense:

Burstiness	Clasificación	Confianza
< 0.25	Fuerte indicador de IA	Alta
0.25 - 0.40	Posible IA o texto muy formal	Media
0.40 - 0.60	Zona ambigua	Baja
0.60 - 0.80	Probable humano	Media-alta
> 0.80	Fuerte indicador humano	Alta

Entropía

La entropía mide la cantidad de información y la imprevisibilidad del texto a nivel de token:

Entropía de Shannon:

H(X) = -Σ P(x_i) × log₂ P(x_i)

Entropía por posición (análisis secuencial):
H_j = -Σ P(x_j | contexto) × log₂ P(x_j | contexto)

La entropía se analiza:
- Globalmente (media del texto completo)
- Por ventanas deslizantes (variación local)
- En puntos de transición (inicio de párrafos/secciones)

Patrones de entropía característicos:

ENTROPÍA POR POSICIÓN — TEXTO HUMANO

H │
  │ ╱╲    ╱╲         ╱╲╱╲
  │╱  ╲  ╱  ╲╱╲     ╱    ╲      ╱╲
  │    ╲╱    ╲  ╲   ╱      ╲    ╱  ╲
  │              ╲╱╲        ╲╱╲╱    ╲╱╲
  └──────────────────────────────────────→
  (Alta variabilidad, picos en transiciones)

ENTROPÍA POR POSICIÓN — TEXTO LLM

H │
  │
  │ ──────────────────────────────────
  │
  │
  └──────────────────────────────────────→
  (Baja variabilidad, entropía casi constante)

Análisis combinado de las tres métricas:

Perplejidad	Burstiness	Entropía	Diagnóstico
Baja	Baja	Constante	IA con alta probabilidad
Baja	Alta	Variable	Texto humano formal (legal, técnico)
Alta	Baja	Constante	IA con temperature alta + edición
Alta	Alta	Variable	Humano con alta probabilidad
Media	Media	Mixta	Zona ambigua — requiere análisis adicional

Análisis de distribución de vocabulario

Ley de Zipf:

La Ley de Zipf establece que en textos naturales, la frecuencia de una palabra es inversamente proporcional a su rango:

f(r) ≈ C / r^α

donde:
- f(r) = frecuencia de la palabra de rango r
- C = constante
- α ≈ 1 para textos humanos naturales

Los textos generados por IA tienden a desviarse sutilmente de esta ley:

Característica	Texto humano	Texto IA
Exponente α	~1.0 (Zipf puro)	0.85-0.95 (desviación leve)
Cola de distribución	Muchas palabras raras	Menos palabras raras
Hapax legomena	40-60% del vocabulario	30-45% del vocabulario
Type-Token Ratio	Variable por autor	Más consistente

Riqueza léxica (Type-Token Ratio):

TTR = Tipos únicos / Total de tokens

TTR por ventanas (más robusto):
MATTR = Media de TTR en ventanas de N palabras

Valores típicos:
- Texto IA genérico: MATTR 0.70-0.78
- Texto humano narrativo: MATTR 0.75-0.85
- Texto humano creativo: MATTR 0.80-0.92
- Texto técnico (humano o IA): MATTR 0.65-0.75

Análisis de n-gramas

El estudio de secuencias de n palabras consecutivas revela patrones diferenciadores:

Métrica	Qué mide	Indicador IA
Repetición de bigramas	Pares de palabras que se repiten	Mayor repetición en IA
Originalidad de trigramas	Secuencias de 3 palabras únicas	Menor originalidad en IA
Cobertura de 4-gramas	% de 4-gramas encontrados en corpus de IA	Alta cobertura = indicador IA
Diversidad de inicios de oración	Variedad en las primeras palabras	Menor diversidad en IA

Frases formulaicas típicas de LLM en español:

CONECTORES SOBREUTILIZADOS POR LLM:
- "Es importante señalar que..."
- "Cabe destacar que..."
- "En este sentido..."
- "A modo de conclusión..."
- "Resulta fundamental..."
- "No obstante lo anterior..."
- "Dicho esto..."
- "En definitiva..."
- "Desde esta perspectiva..."
- "Es preciso mencionar..."
- "Conviene recordar que..."
- "En el marco de..."
- "Por consiguiente..."
- "En primer lugar... en segundo lugar..."

ESTRUCTURAS TÍPICAS:
- Párrafos de longitud similar (~100-150 palabras)
- Listas con "En primer lugar / En segundo lugar / Finalmente"
- Transiciones equilibradas entre párrafos
- Conclusiones que resumen los puntos anteriores
- Uso frecuente de voz pasiva impersonal

Los conectores por sí solos no prueban nada

Muchos escritores humanos también usan conectores formulaicos, especialmente en textos académicos y legales. La presencia de estas frases es un indicador complementario, nunca una prueba aislada. Lo relevante es la acumulación de múltiples indicadores.

Métodos basados en aprendizaje automático

Clasificadores supervisados

Los clasificadores ML se entrenan con grandes conjuntos de textos etiquetados como “humano” o “IA”:

ARQUITECTURA TÍPICA DE CLASIFICADOR

ENTRADA: Texto a analizar
    │
    ▼
┌──────────────────────┐
│  TOKENIZACIÓN        │ → Tokens, subpalabras
└──────────────────────┘
    │
    ▼
┌──────────────────────┐
│  EXTRACCIÓN DE       │ → Perplejidad, burstiness,
│  CARACTERÍSTICAS     │   entropía, n-gramas, TTR,
│                      │   longitud oraciones, etc.
└──────────────────────┘
    │
    ▼
┌──────────────────────┐
│  MODELO              │ → Transformer fine-tuned,
│  CLASIFICADOR        │   Random Forest, o ensemble
└──────────────────────┘
    │
    ▼
┌──────────────────────┐
│  SALIDA              │ → Probabilidad IA: 0.0 - 1.0
│                      │   + Desglose por sección
└──────────────────────┘

Tipos de clasificadores:

Tipo	Ejemplo	Ventaja	Limitación
Transformer fine-tuned	RoBERTa, DeBERTa	Muy alta precisión	Requiere GPU, opaco
Ensemble de features	Random Forest + estadísticas	Interpretable	Menor precisión
Zero-shot	DetectGPT, Binoculars	No requiere entrenamiento	Menor precisión general
Few-shot	Clasificador con pocos ejemplos	Adaptable a nuevos modelos	Necesita ejemplos del modelo

DetectGPT (método de perturbaciones)

DetectGPT es un método zero-shot que no necesita un clasificador entrenado:

ALGORITMO DETECTGPT

1. Dado un texto T, calcular log-probabilidad: logP(T)
2. Generar N perturbaciones de T usando un modelo auxiliar:
   T'_1, T'_2, ..., T'_N
   (Cada T'_i es T con algunas palabras reemplazadas
   por sinónimos/paráfrasis)
3. Calcular log-probabilidad de cada perturbación:
   logP(T'_1), logP(T'_2), ..., logP(T'_N)
4. Calcular puntuación:
   d = (logP(T) - μ(logP(T'_i))) / σ(logP(T'_i))

INTERPRETACIÓN:
- d > umbral → Texto probablemente generado por máquina
  (el texto original tiene probabilidad más alta que
  sus perturbaciones, indicando que está en un "pico"
  de la distribución del modelo)
- d < umbral → Texto probablemente humano
  (las perturbaciones tienen probabilidad similar,
  indicando una región "plana" de la distribución)

Ventajas de DetectGPT:

No requiere datos de entrenamiento etiquetados
Basado en principio estadístico fundamentado
Adaptable a nuevos modelos sin reentrenamiento

Limitaciones:

Computacionalmente costoso (N perturbaciones por texto)
Menor precisión que clasificadores supervisados
Sensible al modelo auxiliar elegido para perturbaciones

Binoculars

Binoculars es un método open source reciente que compara dos modelos de referencia:

ALGORITMO BINOCULARS

1. Usar dos modelos de referencia: M1 (grande) y M2 (pequeño)
2. Para cada token del texto, calcular:
   - logP_M1(token | contexto)  → probabilidad según modelo grande
   - logP_M2(token | contexto)  → probabilidad según modelo pequeño
3. Calcular la ratio:
   B = Σ logP_M1(token) / Σ logP_M2(token)

INTERPRETACIÓN:
- B alto → Texto generado por máquina
  (ambos modelos le dan alta probabilidad)
- B bajo → Texto humano
  (el modelo grande le da más probabilidad relativa
  porque entiende mejor las elecciones humanas)

Resultados reportados (2024):

Modelo fuente	Precisión Binoculars	Falsos positivos
GPT-4	93.7%	3.2%
Claude 3	91.2%	3.8%
Gemini Pro	89.4%	4.1%
Llama 3	87.6%	4.5%
Mistral	86.1%	5.0%

GLTR (Giant Language model Test Room)

GLTR no es un clasificador sino una herramienta de visualización:

FUNCIONAMIENTO DE GLTR

Para cada palabra del texto, GLTR calcula su ranking
en la distribución de probabilidad del modelo:

Colores:
🟢 Verde  → Top 10 palabras más probables
🟡 Amarillo → Top 100
🔴 Rojo   → Top 1000
🟣 Púrpura → Fuera del top 1000

TEXTO HUMANO típico:
"El 🟢gato🟢 🟣saltó🟣 por 🟢la🟢 🔴ventana🟡 hacia 🟡el🟢 🟣enmarañado🟣 jardín"
→ Mezcla de colores: muchas elecciones inesperadas

TEXTO IA típico:
"El 🟢gato🟢 🟢saltó🟢 por 🟢la🟢 🟢ventana🟢 hacia 🟢el🟢 🟢bonito🟢 🟢jardín🟢"
→ Predominio de verde: palabras de alta probabilidad

Uso forense de GLTR:

Visualizar secciones sospechosas de un documento
Identificar transiciones entre texto humano y texto IA
Herramienta pedagógica para explicar al tribunal cómo funciona la detección
Complementar resultados de herramientas automatizadas

Métodos de watermarking (marcas de agua)

C2PA (Coalition for Content Provenance and Authenticity)

C2PA es un estándar abierto para la procedencia de contenido digital:

ESTÁNDAR C2PA

Objetivo:
Proporcionar una cadena de procedencia verificable
para contenido digital, incluyendo texto generado por IA.

Funcionamiento:
1. El sistema que genera el contenido firma digitalmente
   los metadatos de procedencia
2. Los metadatos incluyen:
   - Quién creó el contenido
   - Con qué herramienta
   - Cuándo se creó
   - Si intervino IA en su generación
   - Cadena de modificaciones posteriores
3. Los metadatos están criptográficamente vinculados
   al contenido (no se pueden alterar sin invalidarlos)

Adopción (marzo 2026):
- Adobe: Photoshop, Premiere, Firefly
- Microsoft: Bing Image Creator, Copilot
- Google: Gemini (parcial)
- OpenAI: DALL-E, GPT (parcial)
- Sony, Nikon, Canon (en cámaras)
- BBC, New York Times (en publicaciones)

Aplicación a documentos de texto:

Formato	Soporte C2PA	Estado
PDF	Sí (Adobe Acrobat)	Implementado
DOCX	Parcial (Microsoft 365)	En desarrollo
Imágenes con texto	Sí (PNG, JPEG, AVIF)	Implementado
HTML	En desarrollo	Propuesta de estándar
Texto plano	No	No aplicable directamente
Email	En desarrollo	Propuesta

Limitaciones de C2PA para texto:

Solo funciona si el proveedor implementa el estándar
Copiar-pegar texto elimina los metadatos C2PA
No protege contra captura de pantalla y retranscripción
Adopción aún parcial en generadores de texto

SynthID (Google DeepMind)

SynthID es un sistema de watermarking propietario de Google:

SYNTHID PARA TEXTO

Funcionamiento:
1. Durante la generación de texto, SynthID modifica
   sutilmente la distribución de probabilidad de
   los tokens seleccionados
2. La modificación sigue un patrón pseudoaleatorio
   determinado por una clave secreta
3. Un detector con la clave puede identificar
   el patrón estadístico
4. Sin la clave, el patrón es invisible

Propiedades:
- Imperceptible: no afecta la calidad del texto
- Robusto: resiste edición menor y parafraseo parcial
- Estadístico: detección probabilística, no binaria
- Escalable: aplicable en tiempo de generación sin coste

Limitaciones:
- Solo funciona en Gemini (modelos de Google)
- Requiere acceso al detector propietario
- Vulnerable a parafraseo extensivo
- No es estándar abierto

Comparativa de sistemas de watermarking:

Sistema	Proveedor	Estándar	Detección	Robustez
C2PA	Coalición abierta	Abierto	Verificación de metadatos	Media (copy-paste elimina)
SynthID	Google	Propietario	Análisis estadístico	Alta (resiste edición menor)
Kirchenbauer	Académico	Abierto	Test estadístico	Media-alta
Distillation-based	Varios	Varía	Clasificador	Variable
OpenAI watermark	OpenAI	Propietario	API de verificación	En desarrollo

El watermarking es complementario, no sustitutivo

El watermarking solo funciona si el generador del texto implementa la marca de agua. Para texto generado por modelos sin watermarking, modelos locales (Llama, Mistral) o texto generado antes de la implementación, se necesitan métodos estadísticos y basados en ML.

Precisión por herramienta e idioma

Comparativa de herramientas (marzo 2026)

Precisión en inglés:

Herramienta	GPT-4/4o	Claude 3.5/4	Gemini 1.5/2	Llama 3.x	Promedio
GPTZero	97.2%	94.8%	93.1%	91.5%	94.2%
Originality.ai	96.5%	93.2%	91.8%	90.1%	92.9%
Copyleaks	95.1%	92.7%	90.4%	89.2%	91.9%
Turnitin AI	98.1%	95.4%	94.2%	92.8%	95.1%
Binoculars	93.7%	91.2%	89.4%	87.6%	90.5%
Winston AI	94.3%	91.8%	89.9%	88.4%	91.1%

Precisión en español:

Herramienta	GPT-4/4o	Claude 3.5/4	Gemini 1.5/2	Llama 3.x	Promedio
GPTZero	91.4%	87.2%	85.6%	82.1%	86.6%
Originality.ai	88.7%	84.5%	82.3%	79.8%	83.8%
Copyleaks	87.2%	83.8%	81.5%	78.4%	82.7%
Turnitin AI	89.5%	85.1%	83.7%	80.9%	84.8%
Binoculars	85.3%	82.1%	79.8%	76.5%	80.9%
Winston AI	83.6%	80.4%	78.2%	75.1%	79.3%

Diferencia inglés vs. español:

Herramienta	Precisión inglés	Precisión español	Diferencia
GPTZero	94.2%	86.6%	-7.6%
Originality.ai	92.9%	83.8%	-9.1%
Copyleaks	91.9%	82.7%	-9.2%
Turnitin AI	95.1%	84.8%	-10.3%
Binoculars	90.5%	80.9%	-9.6%
Winston AI	91.1%	79.3%	-11.8%
Media	92.6%	83.0%	-9.6%

La brecha del idioma español

En promedio, las herramientas de detección son un 9.6% menos precisas en español que en inglés. Esto se debe a que la mayoría de modelos de entrenamiento y datos de referencia están en inglés. Para un análisis forense fiable en español, es imprescindible usar múltiples herramientas y complementar con análisis manual estilométrico.

Factores que afectan la precisión

Factor	Impacto en precisión	Dirección
Longitud del texto	Muy alto	Más largo = más preciso
Idioma	Alto	Inglés > español > otros
Modelo generador	Alto	Modelos grandes más detectables
Temperature	Medio-alto	Temperature baja más detectable
Edición humana posterior	Alto	Reduce detección significativamente
Dominio temático	Medio	Texto técnico/legal más difícil
Mezcla humano/IA	Muy alto	Reduce drásticamente la detección
Herramientas de parafraseo	Alto	Reduce detección
Traducción	Medio	Introduce artefactos pero reduce patrones IA
Fecha del modelo	Medio	Modelos más nuevos más difíciles

Precisión por longitud del texto (GPTZero, español):

Longitud	Precisión	Falsos positivos
< 100 palabras	62.3%	12.1%
100-250 palabras	74.8%	8.4%
250-500 palabras	83.2%	5.7%
500-1000 palabras	88.9%	4.2%
1000-2500 palabras	92.1%	3.1%
> 2500 palabras	94.7%	2.3%

Tasas de error: falsos positivos y negativos

Falsos positivos (texto humano clasificado como IA):

Tipo de texto humano	Tasa de falso positivo	Motivo
Texto académico formal	8-15%	Perplejidad baja, estructura formulaica
Texto legal/normativo	10-18%	Vocabulario predecible, estructura fija
Texto traducido	7-12%	Paráfrasis y estructura de traducción
Texto de hablantes no nativos	12-20%	Vocabulario limitado, estructuras simples
Texto con gramática revisada (Grammarly)	6-10%	Correcciones que uniformizan el estilo
Texto corporativo estándar	5-9%	Plantillas y estilo corporativo

Falsos negativos (texto IA clasificado como humano):

Técnica de evasión	Tasa de falso negativo	Contramedida
IA con temperature alta	15-25%	Análisis de contenido (alucinaciones)
Edición humana del 30%+	20-40%	Análisis por secciones
Herramienta de reescritura	25-45%	Detección de artefactos de reescritura
Traducción ida-vuelta	15-30%	Detección de artefactos de traducción
Fine-tuning personalizado	30-50%	Análisis de distribución de tokens
Mezcla 50/50 humano-IA	35-55%	Segmentación por estilo

Análisis de metadatos de documentos

Microsoft Word (.docx)

Los documentos Word contienen metadatos ricos que pueden revelar el uso de IA:

<!-- core.xml — Metadatos básicos -->
<cp:coreProperties>
  <dc:creator>Juan García</dc:creator>
  <cp:lastModifiedBy>Juan García</cp:lastModifiedBy>
  <dcterms:created>2026-03-15T10:22:00Z</dcterms:created>
  <dcterms:modified>2026-03-15T10:47:00Z</dcterms:modified>
  <cp:revision>3</cp:revision>
</cp:coreProperties>

<!-- app.xml — Metadatos de aplicación -->
<Properties>
  <Application>Microsoft Word 365</Application>
  <TotalTime>25</TotalTime>  <!-- 25 minutos de edición -->
  <Pages>15</Pages>
  <Words>5247</Words>
  <Characters>29912</Characters>
  <Paragraphs>73</Paragraphs>
</Properties>

<!-- ANÁLISIS FORENSE -->
<!-- 5247 palabras en 25 minutos = 210 palabras/minuto -->
<!-- Velocidad promedio de escritura humana: 30-40 pal/min -->
<!-- Velocidad promedio de copy-paste: 200+ pal/min -->
<!-- → INDICADOR DE COPY-PASTE (probable IA) -->

Indicadores clave en Word:

Indicador	Valor normal (humano)	Sospechoso (IA)
Tiempo de edición	1-2 min/100 palabras	< 0.3 min/100 palabras
Número de revisiones	20-100+ por documento	< 10
Bloques rsid	Muchos, variados	Pocos, grandes
Número de guardados	Múltiples (autoguardado)	1-3
Track changes	Presentes si hay revisión	Ausentes
Comentarios	Posibles	Generalmente ausentes

PDF

ANÁLISIS FORENSE DE PDF

1. METADATOS ESTÁNDAR
   /Title: (título del documento)
   /Author: (autor)
   /Creator: (aplicación que creó el PDF)
   /Producer: (software que generó el PDF)
   /CreationDate: (fecha de creación)
   /ModDate: (fecha de modificación)

2. ANÁLISIS DE FUENTES
   - Fuentes embebidas vs. referenciadas
   - Tipo de fuente (indica origen):
     · Calibri, Aptos → Microsoft Word
     · Liberation Sans → LibreOffice
     · Roboto, Open Sans → Google Docs/web
     · Times New Roman → Múltiples orígenes

3. ESTRUCTURA DE CONTENIDO
   - Texto como stream vs. texto como imagen
   - Capas de contenido (originales vs. añadidas)
   - Marcadores y estructura de navegación
   - Formularios y campos editables

4. INDICADORES DE COPY-PASTE EN PDF
   - Texto sin estructura de párrafos nativa
   - Inconsistencias en el interlineado
   - Mezcla de fuentes o tamaños sin justificación
   - Ausencia de estilos de documento

Google Docs

Google Docs mantiene un historial de revisiones excepcionalmente detallado:

HISTORIAL DE REVISIONES — GOOGLE DOCS

El historial registra CADA PULSACIÓN DE TECLA:

ESCRITURA HUMANA TÍPICA:
14:22:01 - "E" (1 carácter)
14:22:01 - "l" (1 carácter)
14:22:01 - " " (1 carácter)
14:22:02 - "a" (1 carácter)
14:22:02 - "n" (1 carácter)
14:22:02 - "á" (1 carácter)  ← pausa para tilde
14:22:03 - "l" (1 carácter)
... (continúa carácter a carácter con pausas naturales)
14:22:15 - Backspace x3     ← corrección humana típica
14:22:17 - "isi" (3 caracteres, corrección)
→ Patrón: 2-5 caracteres/segundo, con pausas y correcciones

PEGADO DE TEXTO IA:
14:22:01 - Pegado: "El análisis forense digital es una
  disciplina que se encarga de la identificación,
  preservación, análisis y presentación de evidencia
  digital en procedimientos judiciales. Esta disciplina
  ha cobrado una importancia creciente en el contexto
  actual de digitalización..." (847 caracteres de una vez)
14:22:30 - Sin actividad (29 segundos, leyendo lo pegado)
14:23:05 - Pegado: "Los principales métodos de análisis
  incluyen..." (623 caracteres de una vez)
→ Patrón: Bloques grandes pegados con pausas entre ellos

ANÁLISIS FORENSE:
- Obtener historial via Google Docs API
- Detectar bloques de pegado (>50 caracteres de una vez)
- Medir velocidad de "escritura" por sección
- Identificar patrones de corrección (humanos corrigen más)
- Mapear timeline: pegado → lectura → pequeña edición → pegado

Google Docs: la mejor evidencia de metadatos

El historial de revisiones de Google Docs es la evidencia de metadatos más poderosa para detectar uso de IA. A diferencia de Word (que solo guarda metadatos agregados), Google Docs registra cada acción individual con timestamp, permitiendo reconstruir exactamente cómo se escribió el documento.

Estilometría computacional

Fundamentos

La estilometría es la ciencia de analizar el estilo de escritura para atribuir autoría. Aplicada a la detección de texto IA, permite comparar el estilo de un texto sospechoso con el estilo conocido de un autor humano:

PROCESO ESTILOMÉTRICO

1. CORPUS DE REFERENCIA
   Recopilar textos verificados del supuesto autor:
   - Emails anteriores
   - Documentos de trabajo previos
   - Escritos académicos
   - Mensajes de chat
   Mínimo: 5.000-10.000 palabras de referencia

2. EXTRACCIÓN DE CARACTERÍSTICAS
   Para cada texto (referencia y sospechoso):
   a) Léxicas: vocabulario, riqueza, frecuencias
   b) Sintácticas: longitud oraciones, complejidad
   c) Caracteres: uso puntuación, mayúsculas, espacios
   d) Funcionales: preposiciones, artículos, conjunciones
   e) Estructurales: párrafos, listas, organización

3. COMPARACIÓN
   Medir distancia entre perfiles estilísticos:
   - Delta de Burrows (la más usada)
   - Distancia coseno
   - Divergencia de Kullback-Leibler
   - Distancia euclidiana normalizada

4. CONCLUSIÓN
   ¿El texto sospechoso está más cerca del perfil
   del autor humano o de un perfil típico de LLM?

Delta de Burrows

El Delta de Burrows es la métrica estilométrica más utilizada y validada:

Delta de Burrows:

Δ(A, B) = (1/n) × Σ |z_A(f_i) - z_B(f_i)|

donde:
- f_i = frecuencia de la palabra funcional i
- z_A(f_i) = z-score de f_i en el texto A
- z_B(f_i) = z-score de f_i en el texto B
- n = número de palabras funcionales analizadas

Interpretación:
- Δ bajo = estilos similares (mismo autor probable)
- Δ alto = estilos diferentes (autores diferentes)

En detección IA:
- Calcular Δ(texto_sospechoso, corpus_autor)
- Calcular Δ(texto_sospechoso, corpus_LLM)
- Si Δ_autor >> Δ_LLM → probable IA
- Si Δ_autor << Δ_LLM → probable humano

Herramientas de estilometría

Herramienta	Lenguaje	Características	Uso forense
Stylo	R	Delta de Burrows, PCA, clustering	Investigación académica
JGAAP	Java	Múltiples métricas y clasificadores	Análisis forense
pyStylometry	Python	Flexible, scriptable	Automatización
Stylometry.org	Web	Accesible, sin instalación	Análisis rápido
LIWC	Multiplataforma	Análisis psicológico del lenguaje	Perfil de autor
Signature	Python	Especializado en atribución	Atribución de autoría

Caso práctico de estilometría

ANÁLISIS ESTILOMÉTRICO — CASO REAL

Texto sospechoso: Artículo de opinión (2.100 palabras)
Corpus de referencia del autor: 15 artículos previos (31.000 palabras)
Corpus LLM de referencia: 50 textos GPT-4 (50.000 palabras)

RESULTADOS:

1. DELTA DE BURROWS
   Δ(sospechoso, autor_humano) = 1.42
   Δ(sospechoso, corpus_GPT4)  = 0.38
   → El texto está MUCHO más cerca del estilo GPT-4

2. LONGITUD DE ORACIONES
   Autor humano: μ=18.3, σ=12.7 (burstiness=0.69)
   Texto sospechoso: μ=21.1, σ=5.4 (burstiness=0.26)
   GPT-4 típico: μ=20.8, σ=5.1 (burstiness=0.25)
   → Burstiness del sospechoso coincide con GPT-4

3. PALABRAS FUNCIONALES (top 5 diferencias)
   Palabra  | Autor | Sospechoso | GPT-4
   "pero"   | 1.8%  | 0.4%       | 0.5%
   "además" | 0.2%  | 1.1%       | 1.3%
   "sin     | 0.9%  | 0.3%       | 0.4%
   embargo"
   "es      | 0.1%  | 0.8%       | 0.9%
   importante"
   "cabe"   | 0.0%  | 0.6%       | 0.7%
   → Perfil funcional coincide con GPT-4

4. VOCABULARIO ÚNICO
   Autor humano: 347 hapax (42% del vocabulario)
   Texto sospechoso: 189 hapax (29% del vocabulario)
   GPT-4 típico: 195 hapax (31% del vocabulario)
   → Riqueza léxica del sospechoso es típica de GPT-4

CONCLUSIÓN ESTILOMÉTRICA:
El perfil estilístico del texto sospechoso presenta
una distancia estadísticamente significativa respecto
al estilo habitual del autor, y coincide con los
patrones típicos de GPT-4 en todas las métricas
analizadas. Nivel de confianza: alto (>90%).

Metodología forense para detección de texto IA

Protocolo completo

Recepción del encargo: Documentar por escrito qué se pide analizar, quién lo solicita (orden judicial, parte procesal, institución educativa), y cuáles son las preguntas concretas a responder.
Preservación de evidencia: Obtener el documento original en su formato nativo. Calcular hash SHA-256. Crear copia de trabajo. Si es Google Docs, solicitar exportación del historial de revisiones vía API. Documentar toda la cadena de custodia.
Análisis automatizado multi-herramienta: Ejecutar mínimo 3 herramientas de detección. Documentar versión exacta de cada herramienta y fecha de análisis. Capturar pantalla de cada resultado con timestamp. Registrar configuración utilizada.
Análisis de metadatos: Extraer metadatos con ExifTool/Apache Tika. Analizar tiempos de edición vs. extensión del documento. Examinar bloques de revisión (rsid en Word). Si disponible, analizar historial de Google Docs carácter por carácter.
Análisis estilométrico: Si hay corpus de referencia del supuesto autor, calcular Delta de Burrows y métricas de distancia. Analizar perplejidad, burstiness y entropía manualmente. Comparar patrones de vocabulario funcional. Medir riqueza léxica y distribución de n-gramas.
Verificación de contenido: Comprobar todas las citas, referencias y datos estadísticos. Buscar alucinaciones (información falsa pero plausible). Verificar coherencia interna del documento. Detectar inconsistencias con el conocimiento del supuesto autor.
Análisis por secciones: No analizar solo el documento completo. Segmentar por secciones y analizar cada una individualmente. Detectar transiciones de estilo (posible mezcla humano/IA). Identificar secciones con perplejidad significativamente diferente.
Triangulación de resultados: Consolidar hallazgos de todas las fuentes de análisis. Identificar convergencias (indicadores que apuntan en la misma dirección). Documentar divergencias (indicadores contradictorios). Determinar nivel de confianza global.
Elaboración del informe: Redactar informe pericial con estructura clara. Incluir metodología, herramientas y versiones. Documentar todas las limitaciones. Expresar conclusiones como probabilidad, no como certeza. Incluir anexos con datos brutos y capturas.

Nivel de confianza y comunicación de resultados

ESCALA DE CONFIANZA PARA INFORMES PERICIALES

NIVEL 5 — MUY ALTA CONFIANZA (>95%)
"Con un alto grado de probabilidad, el texto fue generado
por un modelo de inteligencia artificial."
Requisitos: Convergencia de todas las herramientas + metadatos
+ estilometría + alucinaciones verificadas.

NIVEL 4 — ALTA CONFIANZA (85-95%)
"Los indicios analizados son consistentes con la generación
por inteligencia artificial, con alta probabilidad."
Requisitos: Convergencia de herramientas + al menos 2
indicadores independientes adicionales.

NIVEL 3 — CONFIANZA MEDIA (70-85%)
"Existen indicios significativos de que el texto fue
generado total o parcialmente por IA, aunque no es
posible afirmarlo con certeza."
Requisitos: Mayoría de herramientas coinciden pero
hay factores atenuantes.

NIVEL 2 — CONFIANZA BAJA (50-70%)
"Los resultados del análisis no son concluyentes.
Existen indicios tanto a favor como en contra de
la generación por IA."
Nota: Documentar todos los factores y dejar la
valoración al tribunal.

NIVEL 1 — NO CONCLUYENTE (<50%)
"El análisis no permite determinar si el texto fue
generado por IA. Las herramientas y técnicas utilizadas
no proporcionan resultados significativos."
Nota: Ser honesto. Un resultado no concluyente es
un resultado válido e importante.

Marco legal en España

Ámbito académico

Situación	Normativa aplicable	Consecuencia
TFG/TFM con IA	Normativa académica universitaria	Suspenso, repetición, expediente
Examen con IA	Reglamento de evaluación	Anulación, sanción disciplinaria
Tesis doctoral con IA	Normativa de doctorado	Revocación del título
Artículo científico	Políticas editoriales	Retracción, sanción ANECA
Oposiciones	Ley del Estatuto del Empleado Público	Exclusión del proceso selectivo

Ámbito judicial

Situación	Base legal	Consecuencia
Escrito procesal con IA no declarada	Art. 247 LEC (mala fe)	Multa 180-6.000 €
Citas jurisprudenciales falsas (alucinación)	Art. 247 LEC + responsabilidad	Multa + posible inhabilitación
Informe pericial generado por IA	Arts. 335-352 LEC	Nulidad + art. 459 CP (falso testimonio)
Documento contractual defectuoso por IA	Art. 1101 CC (daños)	Indemnización por daños
Falsedad documental	Arts. 390-395 CP	6 meses-3 años prisión

Instrucción CGPJ 2/2026

INSTRUCCIÓN 2/2026 DEL CGPJ
Sobre el uso de inteligencia artificial en la
administración de justicia

Aspectos relevantes para detección de texto IA:

1. TRANSPARENCIA
   - Obligación de declarar el uso de IA en escritos
     y resoluciones judiciales
   - Los profesionales que usen IA deben indicarlo

2. RESPONSABILIDAD
   - El profesional que usa IA es responsable del
     contenido generado
   - No puede delegar la responsabilidad en la herramienta

3. VERIFICACIÓN
   - Obligación de verificar la exactitud de los datos
     generados por IA
   - Especial atención a citas jurisprudenciales

4. PRUEBA PERICIAL
   - Se reconoce la validez de informes periciales
     sobre detección de texto IA
   - El perito debe documentar metodología y limitaciones

AI Act y obligaciones de transparencia

OBLIGACIONES DEL AI ACT PARA TEXTO GENERADO

Artículo 50.2:
"Los proveedores de sistemas de IA que generen contenido
sintético de texto que se publique con el propósito de
informar al público sobre cuestiones de interés público
deberán garantizar que el contenido sintético esté marcado
de forma legible por máquina y pueda detectarse como
generado o manipulado artificialmente."

Artículo 50.4:
"Los responsables del despliegue de un sistema de IA que
genere o manipule texto que constituya un deep fake
deberán revelar que el contenido ha sido generado o
manipulado artificialmente."

Sanciones (art. 99):
- Infracciones graves: hasta 15 millones €
  o el 3% de la facturación mundial
- Infracciones muy graves: hasta 35 millones €
  o el 7% de la facturación mundial

Falsedad documental (arts. 390-395 CP)

Artículo	Supuesto	Pena	Aplicación a IA
390	Autoridad o funcionario que falsifica documento público	3-6 años + inhabilitación	Resolución judicial generada por IA con datos falsos
392	Particular que falsifica documento público	6 meses-3 años	Escrito procesal con citas falsas por IA
395	Falsificación de documento privado	6 meses-2 años	Contrato/informe con datos falsos generados por IA

Mala fe procesal y detección de IA

Varios juzgados en España y EEUU ya han sancionado a abogados por presentar escritos con citas jurisprudenciales inventadas por ChatGPT. El caso más mediático fue Mata v. Avianca (SDNY, 2023), donde el abogado fue multado con $5.000. En España, la Instrucción CGPJ 2/2026 establece la obligación de declarar y verificar el uso de IA en escritos procesales.

Estándares internacionales

ISO y normativa técnica

Estándar	Área	Relevancia
ISO 27037	Evidencia digital	Marco de preservación aplicable
ISO/IEC 42001	Gestión de IA	Sistema de gestión para organizaciones que usan IA
ISO/IEC 23894	Gestión de riesgos IA	Evaluación de riesgos incluyendo detección
NIST AI RMF	Framework de riesgos IA	Estándar estadounidense complementario
IEEE 2857	Privacidad en IA	Requisitos de privacidad

ENFSI (European Network of Forensic Science Institutes)

DIRECTRICES ENFSI PARA EVIDENCIA DIGITAL

Aplicables a análisis forense de texto IA:

1. COMPETENCIA DEL PERITO
   - Formación documentada en el área de análisis
   - Actualización continua de conocimientos
   - Participación en pruebas de competencia

2. VALIDACIÓN DE MÉTODOS
   - Toda herramienta de detección debe estar validada
   - Documentar precisión, falsos positivos/negativos
   - Realizar pruebas con muestras conocidas

3. ASEGURAMIENTO DE CALIDAD
   - Procedimientos documentados
   - Trazabilidad de todas las acciones
   - Control de versiones de herramientas

4. EXPRESIÓN DE RESULTADOS
   - Usar escalas de probabilidad estandarizadas
   - Comunicar incertidumbre y limitaciones
   - No hacer afirmaciones absolutas

Limitaciones y consideraciones éticas

Limitaciones técnicas fundamentales

Limitación	Descripción	Impacto
Imposibilidad teórica	No existe prueba de que la detección perfecta sea posible	Siempre habrá incertidumbre
Carrera armamentística	Modelos mejoran → detección mejora → evasión mejora	Nunca será un problema “resuelto”
Sesgo de entrenamiento	Herramientas entrenadas mayoritariamente en inglés	Menor precisión en otros idiomas
Sesgo contra no nativos	Escritores no nativos producen texto más “regular”	Riesgo de discriminación
Edición humana	Cualquier edición reduce la detectabilidad	Textos mixtos son los más difíciles
Modelos futuros	Modelos aún no lanzados podrían ser indetectables	Herramientas actuales podrían quedar obsoletas

Consideraciones éticas

DILEMAS ÉTICOS EN DETECCIÓN DE TEXTO IA

1. PRESUNCIÓN DE INOCENCIA
   ¿Debe asumirse que un texto es humano hasta que
   se demuestre lo contrario?
   → En contexto judicial: SÍ (presunción de inocencia)
   → En contexto académico: depende de la política

2. DERECHO A LA HERRAMIENTA
   ¿Tiene un autor derecho a usar IA sin declararlo?
   → Depende del contexto y la normativa aplicable
   → El AI Act impone obligaciones de transparencia
   → Pero no todo uso de IA es ilegítimo

3. DISCRIMINACIÓN POR IDIOMA
   Las herramientas son menos precisas en español.
   ¿Es justo aplicar el mismo estándar?
   → El perito debe comunicar esta limitación
   → Ajustar las conclusiones al nivel de precisión real

4. ESTIGMATIZACIÓN
   Un falso positivo puede destruir una carrera académica
   o profesional. ¿Se debe usar detección de IA como
   única prueba?
   → NUNCA como prueba única
   → Siempre como parte de un análisis más amplio
   → Comunicar explícitamente la tasa de falsos positivos

5. ACCESO DESIGUAL
   Las herramientas de evasión son accesibles para
   quien pueda pagarlas. ¿Crea esto una inequidad?
   → La detección es más fácil contra texto IA "bruto"
   → La evasión sofisticada deja otros rastros

Nunca acusar basándose solo en una herramienta

Acusar a alguien de usar IA basándose únicamente en el resultado de una herramienta automatizada es irresponsable y potencialmente injusto. Los falsos positivos existen (5-20% según herramienta e idioma). Cualquier conclusión debe basarse en la convergencia de múltiples indicadores independientes, y el informe debe documentar la tasa de error de cada método utilizado.

Futuro de la detección de texto IA

Tendencias 2026-2028

Tendencia	Descripción	Impacto esperado
Watermarking obligatorio	Regulación exigirá marcas de agua en texto IA	Facilitará detección si se implementa
Modelos más “humanos”	GPT-5, Claude 5 producirán texto menos detectable	Técnicas actuales perderán eficacia
Detección multimodal	Analizar texto + metadatos + comportamiento conjunto	Mayor precisión por triangulación
IA para detectar IA	Clasificadores cada vez más sofisticados	Carrera armamentística continua
Estándares forensics	ISO específico para detección de contenido IA	Mayor rigor metodológico
Regulación armonizada	AI Act + normativa nacional	Marco legal claro
Herramientas locales	Detección sin enviar texto a la nube	Mejor privacidad
Detección en español	Modelos específicos para español	Reducción de la brecha de precisión

Tecnologías emergentes

TECNOLOGÍAS EN DESARROLLO

1. DETECCIÓN POR EMBEDDING
   Análisis del espacio vectorial de embeddings:
   - Los textos IA ocupan regiones específicas
     del espacio de embeddings
   - Clasificación por posición geométrica
   - Prometedor pero aún experimental

2. ANÁLISIS TEMPORAL DE ESCRITURA
   Sensores que registran el proceso de escritura:
   - Dinámica de pulsaciones de teclado
   - Movimientos del ratón
   - Pausas y correcciones
   - Imposible de falsificar retrospectivamente

3. BLOCKCHAIN DE CONTENIDO
   Registro inmutable de autoría:
   - Hash del contenido en blockchain
   - Timestamp verificable
   - Cadena de modificaciones
   - Interoperable con C2PA

4. VERIFICACIÓN ZERO-KNOWLEDGE
   Demostrar autoría sin revelar el contenido:
   - Pruebas criptográficas de proceso de escritura
   - Privacidad del contenido preservada
   - Verificación por terceros

5. CLASSIFICADORES ESPECÍFICOS POR IDIOMA
   Modelos entrenados exclusivamente en español:
   - Mayor precisión para textos en español
   - Consideración de regionalismos
   - Adaptación a textos legales españoles

Recomendaciones prácticas

Para el perito informático

Mantener un kit de herramientas actualizado: Revisar trimestralmente las herramientas de detección. Actualizar versiones y calibrar con muestras conocidas. Incorporar nuevas herramientas a medida que se publiquen.
Usar siempre múltiples métodos: Nunca basar conclusiones en una sola herramienta o técnica. Mínimo: 3 herramientas automatizadas + análisis de metadatos + análisis manual. Ideal: añadir estilometría si hay corpus de referencia.
Documentar exhaustivamente: Versiones de herramientas, configuraciones, fechas de análisis. Capturas de pantalla con timestamp de cada resultado. Cadena de custodia completa de la evidencia.
Comunicar limitaciones honestamente: Expresar resultados como probabilidad, no certeza. Incluir tasas de falsos positivos de cada herramienta. Señalar factores que podrían afectar la fiabilidad (idioma, longitud, dominio).
Conocer el marco legal actualizado: AI Act, Instrucción CGPJ 2/2026, jurisprudencia reciente. Las obligaciones de transparencia evolucionan rápidamente.
Formación continua: Asistir a conferencias de NLP y forense digital. Leer papers actualizados de ACL, EMNLP, NeurIPS. Practicar con muestras conocidas para calibrar el criterio.
Ser imparcial: El perito trabaja para la verdad, no para quien le contrata. Si el análisis no es concluyente, debe decirlo claramente. Un resultado honesto de incertidumbre es más valioso que una conclusión forzada.
Considerar el contexto completo: La detección técnica es solo una parte. El comportamiento del supuesto autor, el tiempo disponible, la consistencia con trabajos anteriores, y la verificación del contenido son complementos esenciales.

Para instituciones educativas

Recomendación	Prioridad	Implementación
Política clara de uso de IA	Crítica	Definir qué está permitido y qué no
Formación al profesorado	Alta	Talleres sobre herramientas de detección
Evaluaciones adaptadas	Alta	Diseñar evaluaciones resistentes a IA
Herramienta institucional	Media	Licencia de GPTZero o Turnitin AI
Protocolo de investigación	Alta	Procedimiento ante sospecha de uso de IA
Proporcionalidad de sanciones	Alta	No criminalizar, educar

Para empresas

Recomendación	Prioridad	Implementación
Política de uso de IA	Crítica	Definir usos aceptables e inaceptables
Revisión de documentos críticos	Alta	Verificar contratos, informes regulatorios
Cumplimiento AI Act	Crítica	Auditar sistemas IA propios
Formación a empleados	Alta	Uso responsable de IA generativa
Cláusulas contractuales	Media	Requisitos de autoría en contratos con proveedores

Para abogados

Recomendación	Prioridad	Implementación
Declarar uso de IA	Crítica	Transparencia ante el tribunal
Verificar TODAS las citas	Crítica	Comprobar sentencias y legislación citadas
Revisar coherencia	Alta	Leer y verificar todo texto generado por IA
Conocer la Instrucción CGPJ 2/2026	Alta	Cumplir obligaciones de transparencia
Contratar perito si es necesario	Media	Para casos que requieran análisis forense

Conclusión

La detección de texto generado por inteligencia artificial es un campo técnico complejo y en rápida evolución que se ha convertido en una necesidad práctica en múltiples ámbitos: educación, justicia, empresa y administración pública. Ninguna herramienta ni técnica es infalible, y la precisión varía significativamente según el idioma (con una brecha del 9.6% entre inglés y español), la longitud del texto, el modelo generador y las técnicas de evasión empleadas.

Para el perito informático, la detección de texto IA requiere un enfoque multidisciplinar que combine herramientas automatizadas, análisis de metadatos, estilometría computacional, verificación de contenido y análisis contextual. La honestidad sobre las limitaciones y la expresión de resultados en términos de probabilidad (no de certeza) son esenciales para que el informe pericial tenga valor y credibilidad ante tribunales.

El marco legal evoluciona rápidamente: el AI Act impone obligaciones de transparencia y marcado de contenido generado por IA, la Instrucción CGPJ 2/2026 regula el uso de IA en la administración de justicia, y la jurisprudencia comienza a abordar las consecuencias del uso no declarado de IA. El perito informático forense especializado en esta materia ocupa una posición cada vez más relevante en el sistema judicial.

Referencias y fuentes

Mitchell, E. et al. (2023). “DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature”. Proceedings of ICML 2023. Método estadístico de detección.
Hans, A. et al. (2024). “Binoculars: Zero-Shot Detection of LLM-Generated Text”. arXiv:2401.12070. Herramienta open source de detección.
Weber-Wulff, D. et al. (2023). “Testing of Detection Tools for AI-Generated Text”. International Journal for Educational Integrity, 19(26). Evaluación comparativa de herramientas.
Kirchenbauer, J. et al. (2023). “A Watermark for Large Language Models”. Proceedings of ICML 2023. Watermarking estadístico de texto IA.
Sadasivan, V. et al. (2023). “Can AI-Generated Text be Reliably Detected?”. arXiv:2303.11156. Análisis de limitaciones fundamentales.
C2PA (Coalition for Content Provenance and Authenticity). “Technical Specification v2.1” (2025). Estándar de procedencia de contenido digital.
Google DeepMind (2024). “SynthID Text: Scalable Watermarking for Language Models”. Documentación técnica de SynthID.
Reglamento (UE) 2024/1689 del Parlamento Europeo y del Consejo (AI Act). Artículo 50 sobre obligaciones de transparencia.
Instrucción 2/2026 del Consejo General del Poder Judicial. Directrices sobre uso de IA en la administración de justicia.
Burrows, J. (2002). “‘Delta’: A Measure of Stylistic Difference and a Guide to Likely Authorship”. Literary and Linguistic Computing, 17(3), 267-287. Fundamento de la estilometría computacional.
Liang, W. et al. (2024). “Monitoring AI-Modified Content at Scale”. arXiv:2403.07183. Detección a escala de contenido modificado por IA.
Tian, E. (2023-2026). “GPTZero: Detection of AI-Generated Text”. Documentación técnica y reportes de precisión.

Última actualización: 30 de marzo de 2026 Categoría: Técnico Código: TEC-065