Técnico

Detección de Texto IA

Conjunto de técnicas, herramientas y metodologías diseñadas para identificar si un texto fue generado total o parcialmente por un modelo de inteligencia artificial, incluyendo métodos estadísticos (perplejidad, burstiness, entropía), clasificadores de aprendizaje automático, marcas de agua digitales (C2PA, SynthID), análisis estilométrico y análisis de metadatos de documentos.

15 min de lectura

¿Qué es la detección de texto IA?

La detección de texto IA es el campo técnico dedicado a determinar si un fragmento de texto fue producido total o parcialmente por un modelo de inteligencia artificial generativa (como GPT-4, Claude, Gemini, Llama o Mistral). Este campo combina técnicas estadísticas, aprendizaje automático, lingüística computacional y análisis de metadatos para identificar las huellas que los modelos de lenguaje dejan en el texto que generan.

La necesidad de detectar texto generado por IA ha crecido exponencialmente desde la popularización de ChatGPT en noviembre de 2022. En solo tres años, la detección de texto IA ha pasado de ser un problema académico a una necesidad práctica en educación, justicia, periodismo, empresa y administración pública.

Campo en constante evolución

La detección de texto IA es una carrera armamentística: a medida que los modelos de lenguaje mejoran y producen texto más “humano”, las herramientas de detección deben evolucionar. Las técnicas y precisiones descritas en este artículo reflejan el estado del arte en marzo de 2026 y pueden cambiar significativamente en meses.

Categorías de métodos de detección

Los métodos de detección se clasifican en tres grandes familias:

CategoríaEnfoqueVentajasLimitaciones
EstadísticosAnalizar propiedades matemáticas del textoInterpretables, no requieren entrenamientoPrecisión limitada en textos cortos
Basados en MLClasificadores entrenados con textos humanos/IAAlta precisión en condiciones óptimasCaja negra, necesitan datos de entrenamiento
WatermarkingMarcas invisibles insertadas durante la generaciónMuy alta precisión si están presentesRequieren cooperación del proveedor
HíbridosCombinación de las anterioresRobustez por triangulaciónMayor complejidad y coste

Métodos estadísticos

Perplejidad

La perplejidad es la métrica más fundamental para la detección de texto IA. Mide cuán “sorprendente” resulta un texto para un modelo de lenguaje de referencia:

Definición matemática:

PPL(X) = exp(-1/N × Σ log P(x_i | x_1, ..., x_{i-1}))

donde:
- X = secuencia de tokens del texto
- N = número total de tokens
- P(x_i | ...) = probabilidad del token i dado el contexto

¿Por qué funciona?

Los LLM generan texto seleccionando tokens de alta probabilidad según su distribución aprendida. Por tanto, el texto generado por IA tiende a tener perplejidad baja cuando se evalúa con un modelo similar, porque sigue el camino de máxima probabilidad. Los humanos, en cambio, hacen elecciones menos predecibles: usan palabras inesperadas, construcciones idiomáticas personales y expresiones coloquiales que un modelo no priorizaría.

Perplejidad por tipo de texto:

Tipo de textoPerplejidad típicaInterpretación
Texto ChatGPT (temperature 0.3)5-12Muy baja: fuerte indicador de IA
Texto ChatGPT (temperature 0.7)12-25Baja: indicador moderado de IA
Texto ChatGPT (temperature 1.0)20-40Zona ambigua
Texto legal/normativo humano15-30Baja por formalidad (falso positivo)
Escritura periodística humana30-60Media: zona normal humana
Escritura creativa/literaria50-120Alta: fuerte indicador humano
Conversación informal humana60-150Muy alta: indicador claro de humano
Poesía/escritura experimental100-300+Extrema: patrón humano
Perplejidad no es prueba absoluta

Un texto legal muy formal escrito por un abogado puede tener perplejidad tan baja como texto generado por IA, porque los textos legales siguen fórmulas y estructuras predecibles. La perplejidad siempre debe combinarse con otras métricas para evitar falsos positivos.

Burstiness (Explosividad)

La burstiness mide la variabilidad en la complejidad y longitud de las oraciones a lo largo del texto:

Cálculo de burstiness:

Burstiness = σ(S) / μ(S)

donde:
- S = {s_1, s_2, ..., s_n} (longitudes de oraciones)
- σ(S) = desviación estándar
- μ(S) = media

Variantes más sofisticadas incluyen:
- Burstiness de complejidad sintáctica (profundidad de árbol)
- Burstiness de riqueza léxica por ventana
- Burstiness multi-escala (oración, párrafo, sección)

Visualización comparativa:

LONGITUD DE ORACIONES — TEXTO HUMANO

│    ██
│    ██                          ████
│    ██  ██              ██      ████
│    ██  ██  ██      ██  ██  ██  ████  ██
│ ██ ██  ██  ██  ██  ██  ██  ██  ████  ██  ██
│ ██ ██  ██  ██  ██  ██  ██  ██  ████  ██  ██
└──────────────────────────────────────────────→
  1  2   3   4   5   6   7   8   9    10  11
  (Número de oración → altura = longitud)

Burstiness = 0.82 (alta variabilidad)

LONGITUD DE ORACIONES — TEXTO LLM


│    ██  ██  ██  ██  ██  ██  ██  ██  ██  ██
│    ██  ██  ██  ██  ██  ██  ██  ██  ██  ██
│ ██ ██  ██  ██  ██  ██  ██  ██  ██  ██  ██
│ ██ ██  ██  ██  ██  ██  ██  ██  ██  ██  ██
└──────────────────────────────────────────────→
  1  2   3   4   5   6   7   8   9    10  11

Burstiness = 0.21 (baja variabilidad)

Interpretación forense:

BurstinessClasificaciónConfianza
< 0.25Fuerte indicador de IAAlta
0.25 - 0.40Posible IA o texto muy formalMedia
0.40 - 0.60Zona ambiguaBaja
0.60 - 0.80Probable humanoMedia-alta
> 0.80Fuerte indicador humanoAlta

Entropía

La entropía mide la cantidad de información y la imprevisibilidad del texto a nivel de token:

Entropía de Shannon:

H(X) = -Σ P(x_i) × log₂ P(x_i)

Entropía por posición (análisis secuencial):
H_j = -Σ P(x_j | contexto) × log₂ P(x_j | contexto)

La entropía se analiza:
- Globalmente (media del texto completo)
- Por ventanas deslizantes (variación local)
- En puntos de transición (inicio de párrafos/secciones)

Patrones de entropía característicos:

ENTROPÍA POR POSICIÓN — TEXTO HUMANO

H │
  │ ╱╲    ╱╲         ╱╲╱╲
  │╱  ╲  ╱  ╲╱╲     ╱    ╲      ╱╲
  │    ╲╱    ╲  ╲   ╱      ╲    ╱  ╲
  │              ╲╱╲        ╲╱╲╱    ╲╱╲
  └──────────────────────────────────────→
  (Alta variabilidad, picos en transiciones)

ENTROPÍA POR POSICIÓN — TEXTO LLM

H │

  │ ──────────────────────────────────


  └──────────────────────────────────────→
  (Baja variabilidad, entropía casi constante)

Análisis combinado de las tres métricas:

PerplejidadBurstinessEntropíaDiagnóstico
BajaBajaConstanteIA con alta probabilidad
BajaAltaVariableTexto humano formal (legal, técnico)
AltaBajaConstanteIA con temperature alta + edición
AltaAltaVariableHumano con alta probabilidad
MediaMediaMixtaZona ambigua — requiere análisis adicional

Análisis de distribución de vocabulario

Ley de Zipf:

La Ley de Zipf establece que en textos naturales, la frecuencia de una palabra es inversamente proporcional a su rango:

f(r) ≈ C / r^α

donde:
- f(r) = frecuencia de la palabra de rango r
- C = constante
- α ≈ 1 para textos humanos naturales

Los textos generados por IA tienden a desviarse sutilmente de esta ley:

CaracterísticaTexto humanoTexto IA
Exponente α~1.0 (Zipf puro)0.85-0.95 (desviación leve)
Cola de distribuciónMuchas palabras rarasMenos palabras raras
Hapax legomena40-60% del vocabulario30-45% del vocabulario
Type-Token RatioVariable por autorMás consistente

Riqueza léxica (Type-Token Ratio):

TTR = Tipos únicos / Total de tokens

TTR por ventanas (más robusto):
MATTR = Media de TTR en ventanas de N palabras

Valores típicos:
- Texto IA genérico: MATTR 0.70-0.78
- Texto humano narrativo: MATTR 0.75-0.85
- Texto humano creativo: MATTR 0.80-0.92
- Texto técnico (humano o IA): MATTR 0.65-0.75

Análisis de n-gramas

El estudio de secuencias de n palabras consecutivas revela patrones diferenciadores:

MétricaQué mideIndicador IA
Repetición de bigramasPares de palabras que se repitenMayor repetición en IA
Originalidad de trigramasSecuencias de 3 palabras únicasMenor originalidad en IA
Cobertura de 4-gramas% de 4-gramas encontrados en corpus de IAAlta cobertura = indicador IA
Diversidad de inicios de oraciónVariedad en las primeras palabrasMenor diversidad en IA

Frases formulaicas típicas de LLM en español:

CONECTORES SOBREUTILIZADOS POR LLM:
- "Es importante señalar que..."
- "Cabe destacar que..."
- "En este sentido..."
- "A modo de conclusión..."
- "Resulta fundamental..."
- "No obstante lo anterior..."
- "Dicho esto..."
- "En definitiva..."
- "Desde esta perspectiva..."
- "Es preciso mencionar..."
- "Conviene recordar que..."
- "En el marco de..."
- "Por consiguiente..."
- "En primer lugar... en segundo lugar..."

ESTRUCTURAS TÍPICAS:
- Párrafos de longitud similar (~100-150 palabras)
- Listas con "En primer lugar / En segundo lugar / Finalmente"
- Transiciones equilibradas entre párrafos
- Conclusiones que resumen los puntos anteriores
- Uso frecuente de voz pasiva impersonal
Los conectores por sí solos no prueban nada

Muchos escritores humanos también usan conectores formulaicos, especialmente en textos académicos y legales. La presencia de estas frases es un indicador complementario, nunca una prueba aislada. Lo relevante es la acumulación de múltiples indicadores.

Métodos basados en aprendizaje automático

Clasificadores supervisados

Los clasificadores ML se entrenan con grandes conjuntos de textos etiquetados como “humano” o “IA”:

ARQUITECTURA TÍPICA DE CLASIFICADOR

ENTRADA: Texto a analizar


┌──────────────────────┐
│  TOKENIZACIÓN        │ → Tokens, subpalabras
└──────────────────────┘


┌──────────────────────┐
│  EXTRACCIÓN DE       │ → Perplejidad, burstiness,
│  CARACTERÍSTICAS     │   entropía, n-gramas, TTR,
│                      │   longitud oraciones, etc.
└──────────────────────┘


┌──────────────────────┐
│  MODELO              │ → Transformer fine-tuned,
│  CLASIFICADOR        │   Random Forest, o ensemble
└──────────────────────┘


┌──────────────────────┐
│  SALIDA              │ → Probabilidad IA: 0.0 - 1.0
│                      │   + Desglose por sección
└──────────────────────┘

Tipos de clasificadores:

TipoEjemploVentajaLimitación
Transformer fine-tunedRoBERTa, DeBERTaMuy alta precisiónRequiere GPU, opaco
Ensemble de featuresRandom Forest + estadísticasInterpretableMenor precisión
Zero-shotDetectGPT, BinocularsNo requiere entrenamientoMenor precisión general
Few-shotClasificador con pocos ejemplosAdaptable a nuevos modelosNecesita ejemplos del modelo

DetectGPT (método de perturbaciones)

DetectGPT es un método zero-shot que no necesita un clasificador entrenado:

ALGORITMO DETECTGPT

1. Dado un texto T, calcular log-probabilidad: logP(T)
2. Generar N perturbaciones de T usando un modelo auxiliar:
   T'_1, T'_2, ..., T'_N
   (Cada T'_i es T con algunas palabras reemplazadas
   por sinónimos/paráfrasis)
3. Calcular log-probabilidad de cada perturbación:
   logP(T'_1), logP(T'_2), ..., logP(T'_N)
4. Calcular puntuación:
   d = (logP(T) - μ(logP(T'_i))) / σ(logP(T'_i))

INTERPRETACIÓN:
- d > umbral → Texto probablemente generado por máquina
  (el texto original tiene probabilidad más alta que
  sus perturbaciones, indicando que está en un "pico"
  de la distribución del modelo)
- d < umbral → Texto probablemente humano
  (las perturbaciones tienen probabilidad similar,
  indicando una región "plana" de la distribución)

Ventajas de DetectGPT:

  • No requiere datos de entrenamiento etiquetados
  • Basado en principio estadístico fundamentado
  • Adaptable a nuevos modelos sin reentrenamiento

Limitaciones:

  • Computacionalmente costoso (N perturbaciones por texto)
  • Menor precisión que clasificadores supervisados
  • Sensible al modelo auxiliar elegido para perturbaciones

Binoculars

Binoculars es un método open source reciente que compara dos modelos de referencia:

ALGORITMO BINOCULARS

1. Usar dos modelos de referencia: M1 (grande) y M2 (pequeño)
2. Para cada token del texto, calcular:
   - logP_M1(token | contexto)  → probabilidad según modelo grande
   - logP_M2(token | contexto)  → probabilidad según modelo pequeño
3. Calcular la ratio:
   B = Σ logP_M1(token) / Σ logP_M2(token)

INTERPRETACIÓN:
- B alto → Texto generado por máquina
  (ambos modelos le dan alta probabilidad)
- B bajo → Texto humano
  (el modelo grande le da más probabilidad relativa
  porque entiende mejor las elecciones humanas)

Resultados reportados (2024):

Modelo fuentePrecisión BinocularsFalsos positivos
GPT-493.7%3.2%
Claude 391.2%3.8%
Gemini Pro89.4%4.1%
Llama 387.6%4.5%
Mistral86.1%5.0%

GLTR (Giant Language model Test Room)

GLTR no es un clasificador sino una herramienta de visualización:

FUNCIONAMIENTO DE GLTR

Para cada palabra del texto, GLTR calcula su ranking
en la distribución de probabilidad del modelo:

Colores:
🟢 Verde  → Top 10 palabras más probables
🟡 Amarillo → Top 100
🔴 Rojo   → Top 1000
🟣 Púrpura → Fuera del top 1000

TEXTO HUMANO típico:
"El 🟢gato🟢 🟣saltó🟣 por 🟢la🟢 🔴ventana🟡 hacia 🟡el🟢 🟣enmarañado🟣 jardín"
→ Mezcla de colores: muchas elecciones inesperadas

TEXTO IA típico:
"El 🟢gato🟢 🟢saltó🟢 por 🟢la🟢 🟢ventana🟢 hacia 🟢el🟢 🟢bonito🟢 🟢jardín🟢"
→ Predominio de verde: palabras de alta probabilidad

Uso forense de GLTR:

  • Visualizar secciones sospechosas de un documento
  • Identificar transiciones entre texto humano y texto IA
  • Herramienta pedagógica para explicar al tribunal cómo funciona la detección
  • Complementar resultados de herramientas automatizadas

Métodos de watermarking (marcas de agua)

C2PA (Coalition for Content Provenance and Authenticity)

C2PA es un estándar abierto para la procedencia de contenido digital:

ESTÁNDAR C2PA

Objetivo:
Proporcionar una cadena de procedencia verificable
para contenido digital, incluyendo texto generado por IA.

Funcionamiento:
1. El sistema que genera el contenido firma digitalmente
   los metadatos de procedencia
2. Los metadatos incluyen:
   - Quién creó el contenido
   - Con qué herramienta
   - Cuándo se creó
   - Si intervino IA en su generación
   - Cadena de modificaciones posteriores
3. Los metadatos están criptográficamente vinculados
   al contenido (no se pueden alterar sin invalidarlos)

Adopción (marzo 2026):
- Adobe: Photoshop, Premiere, Firefly
- Microsoft: Bing Image Creator, Copilot
- Google: Gemini (parcial)
- OpenAI: DALL-E, GPT (parcial)
- Sony, Nikon, Canon (en cámaras)
- BBC, New York Times (en publicaciones)

Aplicación a documentos de texto:

FormatoSoporte C2PAEstado
PDFSí (Adobe Acrobat)Implementado
DOCXParcial (Microsoft 365)En desarrollo
Imágenes con textoSí (PNG, JPEG, AVIF)Implementado
HTMLEn desarrolloPropuesta de estándar
Texto planoNoNo aplicable directamente
EmailEn desarrolloPropuesta

Limitaciones de C2PA para texto:

  • Solo funciona si el proveedor implementa el estándar
  • Copiar-pegar texto elimina los metadatos C2PA
  • No protege contra captura de pantalla y retranscripción
  • Adopción aún parcial en generadores de texto

SynthID (Google DeepMind)

SynthID es un sistema de watermarking propietario de Google:

SYNTHID PARA TEXTO

Funcionamiento:
1. Durante la generación de texto, SynthID modifica
   sutilmente la distribución de probabilidad de
   los tokens seleccionados
2. La modificación sigue un patrón pseudoaleatorio
   determinado por una clave secreta
3. Un detector con la clave puede identificar
   el patrón estadístico
4. Sin la clave, el patrón es invisible

Propiedades:
- Imperceptible: no afecta la calidad del texto
- Robusto: resiste edición menor y parafraseo parcial
- Estadístico: detección probabilística, no binaria
- Escalable: aplicable en tiempo de generación sin coste

Limitaciones:
- Solo funciona en Gemini (modelos de Google)
- Requiere acceso al detector propietario
- Vulnerable a parafraseo extensivo
- No es estándar abierto

Comparativa de sistemas de watermarking:

SistemaProveedorEstándarDetecciónRobustez
C2PACoalición abiertaAbiertoVerificación de metadatosMedia (copy-paste elimina)
SynthIDGooglePropietarioAnálisis estadísticoAlta (resiste edición menor)
KirchenbauerAcadémicoAbiertoTest estadísticoMedia-alta
Distillation-basedVariosVaríaClasificadorVariable
OpenAI watermarkOpenAIPropietarioAPI de verificaciónEn desarrollo
El watermarking es complementario, no sustitutivo

El watermarking solo funciona si el generador del texto implementa la marca de agua. Para texto generado por modelos sin watermarking, modelos locales (Llama, Mistral) o texto generado antes de la implementación, se necesitan métodos estadísticos y basados en ML.

Precisión por herramienta e idioma

Comparativa de herramientas (marzo 2026)

Precisión en inglés:

HerramientaGPT-4/4oClaude 3.5/4Gemini 1.5/2Llama 3.xPromedio
GPTZero97.2%94.8%93.1%91.5%94.2%
Originality.ai96.5%93.2%91.8%90.1%92.9%
Copyleaks95.1%92.7%90.4%89.2%91.9%
Turnitin AI98.1%95.4%94.2%92.8%95.1%
Binoculars93.7%91.2%89.4%87.6%90.5%
Winston AI94.3%91.8%89.9%88.4%91.1%

Precisión en español:

HerramientaGPT-4/4oClaude 3.5/4Gemini 1.5/2Llama 3.xPromedio
GPTZero91.4%87.2%85.6%82.1%86.6%
Originality.ai88.7%84.5%82.3%79.8%83.8%
Copyleaks87.2%83.8%81.5%78.4%82.7%
Turnitin AI89.5%85.1%83.7%80.9%84.8%
Binoculars85.3%82.1%79.8%76.5%80.9%
Winston AI83.6%80.4%78.2%75.1%79.3%

Diferencia inglés vs. español:

HerramientaPrecisión inglésPrecisión españolDiferencia
GPTZero94.2%86.6%-7.6%
Originality.ai92.9%83.8%-9.1%
Copyleaks91.9%82.7%-9.2%
Turnitin AI95.1%84.8%-10.3%
Binoculars90.5%80.9%-9.6%
Winston AI91.1%79.3%-11.8%
Media92.6%83.0%-9.6%
La brecha del idioma español

En promedio, las herramientas de detección son un 9.6% menos precisas en español que en inglés. Esto se debe a que la mayoría de modelos de entrenamiento y datos de referencia están en inglés. Para un análisis forense fiable en español, es imprescindible usar múltiples herramientas y complementar con análisis manual estilométrico.

Factores que afectan la precisión

FactorImpacto en precisiónDirección
Longitud del textoMuy altoMás largo = más preciso
IdiomaAltoInglés > español > otros
Modelo generadorAltoModelos grandes más detectables
TemperatureMedio-altoTemperature baja más detectable
Edición humana posteriorAltoReduce detección significativamente
Dominio temáticoMedioTexto técnico/legal más difícil
Mezcla humano/IAMuy altoReduce drásticamente la detección
Herramientas de parafraseoAltoReduce detección
TraducciónMedioIntroduce artefactos pero reduce patrones IA
Fecha del modeloMedioModelos más nuevos más difíciles

Precisión por longitud del texto (GPTZero, español):

LongitudPrecisiónFalsos positivos
< 100 palabras62.3%12.1%
100-250 palabras74.8%8.4%
250-500 palabras83.2%5.7%
500-1000 palabras88.9%4.2%
1000-2500 palabras92.1%3.1%
> 2500 palabras94.7%2.3%

Tasas de error: falsos positivos y negativos

Falsos positivos (texto humano clasificado como IA):

Tipo de texto humanoTasa de falso positivoMotivo
Texto académico formal8-15%Perplejidad baja, estructura formulaica
Texto legal/normativo10-18%Vocabulario predecible, estructura fija
Texto traducido7-12%Paráfrasis y estructura de traducción
Texto de hablantes no nativos12-20%Vocabulario limitado, estructuras simples
Texto con gramática revisada (Grammarly)6-10%Correcciones que uniformizan el estilo
Texto corporativo estándar5-9%Plantillas y estilo corporativo

Falsos negativos (texto IA clasificado como humano):

Técnica de evasiónTasa de falso negativoContramedida
IA con temperature alta15-25%Análisis de contenido (alucinaciones)
Edición humana del 30%+20-40%Análisis por secciones
Herramienta de reescritura25-45%Detección de artefactos de reescritura
Traducción ida-vuelta15-30%Detección de artefactos de traducción
Fine-tuning personalizado30-50%Análisis de distribución de tokens
Mezcla 50/50 humano-IA35-55%Segmentación por estilo

Análisis de metadatos de documentos

Microsoft Word (.docx)

Los documentos Word contienen metadatos ricos que pueden revelar el uso de IA:

<!-- core.xml — Metadatos básicos -->
<cp:coreProperties>
  <dc:creator>Juan García</dc:creator>
  <cp:lastModifiedBy>Juan García</cp:lastModifiedBy>
  <dcterms:created>2026-03-15T10:22:00Z</dcterms:created>
  <dcterms:modified>2026-03-15T10:47:00Z</dcterms:modified>
  <cp:revision>3</cp:revision>
</cp:coreProperties>

<!-- app.xml — Metadatos de aplicación -->
<Properties>
  <Application>Microsoft Word 365</Application>
  <TotalTime>25</TotalTime>  <!-- 25 minutos de edición -->
  <Pages>15</Pages>
  <Words>5247</Words>
  <Characters>29912</Characters>
  <Paragraphs>73</Paragraphs>
</Properties>

<!-- ANÁLISIS FORENSE -->
<!-- 5247 palabras en 25 minutos = 210 palabras/minuto -->
<!-- Velocidad promedio de escritura humana: 30-40 pal/min -->
<!-- Velocidad promedio de copy-paste: 200+ pal/min -->
<!-- → INDICADOR DE COPY-PASTE (probable IA) -->

Indicadores clave en Word:

IndicadorValor normal (humano)Sospechoso (IA)
Tiempo de edición1-2 min/100 palabras< 0.3 min/100 palabras
Número de revisiones20-100+ por documento< 10
Bloques rsidMuchos, variadosPocos, grandes
Número de guardadosMúltiples (autoguardado)1-3
Track changesPresentes si hay revisiónAusentes
ComentariosPosiblesGeneralmente ausentes

PDF

ANÁLISIS FORENSE DE PDF

1. METADATOS ESTÁNDAR
   /Title: (título del documento)
   /Author: (autor)
   /Creator: (aplicación que creó el PDF)
   /Producer: (software que generó el PDF)
   /CreationDate: (fecha de creación)
   /ModDate: (fecha de modificación)

2. ANÁLISIS DE FUENTES
   - Fuentes embebidas vs. referenciadas
   - Tipo de fuente (indica origen):
     · Calibri, Aptos → Microsoft Word
     · Liberation Sans → LibreOffice
     · Roboto, Open Sans → Google Docs/web
     · Times New Roman → Múltiples orígenes

3. ESTRUCTURA DE CONTENIDO
   - Texto como stream vs. texto como imagen
   - Capas de contenido (originales vs. añadidas)
   - Marcadores y estructura de navegación
   - Formularios y campos editables

4. INDICADORES DE COPY-PASTE EN PDF
   - Texto sin estructura de párrafos nativa
   - Inconsistencias en el interlineado
   - Mezcla de fuentes o tamaños sin justificación
   - Ausencia de estilos de documento

Google Docs

Google Docs mantiene un historial de revisiones excepcionalmente detallado:

HISTORIAL DE REVISIONES — GOOGLE DOCS

El historial registra CADA PULSACIÓN DE TECLA:

ESCRITURA HUMANA TÍPICA:
14:22:01 - "E" (1 carácter)
14:22:01 - "l" (1 carácter)
14:22:01 - " " (1 carácter)
14:22:02 - "a" (1 carácter)
14:22:02 - "n" (1 carácter)
14:22:02 - "á" (1 carácter)  ← pausa para tilde
14:22:03 - "l" (1 carácter)
... (continúa carácter a carácter con pausas naturales)
14:22:15 - Backspace x3     ← corrección humana típica
14:22:17 - "isi" (3 caracteres, corrección)
→ Patrón: 2-5 caracteres/segundo, con pausas y correcciones

PEGADO DE TEXTO IA:
14:22:01 - Pegado: "El análisis forense digital es una
  disciplina que se encarga de la identificación,
  preservación, análisis y presentación de evidencia
  digital en procedimientos judiciales. Esta disciplina
  ha cobrado una importancia creciente en el contexto
  actual de digitalización..." (847 caracteres de una vez)
14:22:30 - Sin actividad (29 segundos, leyendo lo pegado)
14:23:05 - Pegado: "Los principales métodos de análisis
  incluyen..." (623 caracteres de una vez)
→ Patrón: Bloques grandes pegados con pausas entre ellos

ANÁLISIS FORENSE:
- Obtener historial via Google Docs API
- Detectar bloques de pegado (>50 caracteres de una vez)
- Medir velocidad de "escritura" por sección
- Identificar patrones de corrección (humanos corrigen más)
- Mapear timeline: pegado → lectura → pequeña edición → pegado
Google Docs: la mejor evidencia de metadatos

El historial de revisiones de Google Docs es la evidencia de metadatos más poderosa para detectar uso de IA. A diferencia de Word (que solo guarda metadatos agregados), Google Docs registra cada acción individual con timestamp, permitiendo reconstruir exactamente cómo se escribió el documento.

Estilometría computacional

Fundamentos

La estilometría es la ciencia de analizar el estilo de escritura para atribuir autoría. Aplicada a la detección de texto IA, permite comparar el estilo de un texto sospechoso con el estilo conocido de un autor humano:

PROCESO ESTILOMÉTRICO

1. CORPUS DE REFERENCIA
   Recopilar textos verificados del supuesto autor:
   - Emails anteriores
   - Documentos de trabajo previos
   - Escritos académicos
   - Mensajes de chat
   Mínimo: 5.000-10.000 palabras de referencia

2. EXTRACCIÓN DE CARACTERÍSTICAS
   Para cada texto (referencia y sospechoso):
   a) Léxicas: vocabulario, riqueza, frecuencias
   b) Sintácticas: longitud oraciones, complejidad
   c) Caracteres: uso puntuación, mayúsculas, espacios
   d) Funcionales: preposiciones, artículos, conjunciones
   e) Estructurales: párrafos, listas, organización

3. COMPARACIÓN
   Medir distancia entre perfiles estilísticos:
   - Delta de Burrows (la más usada)
   - Distancia coseno
   - Divergencia de Kullback-Leibler
   - Distancia euclidiana normalizada

4. CONCLUSIÓN
   ¿El texto sospechoso está más cerca del perfil
   del autor humano o de un perfil típico de LLM?

Delta de Burrows

El Delta de Burrows es la métrica estilométrica más utilizada y validada:

Delta de Burrows:

Δ(A, B) = (1/n) × Σ |z_A(f_i) - z_B(f_i)|

donde:
- f_i = frecuencia de la palabra funcional i
- z_A(f_i) = z-score de f_i en el texto A
- z_B(f_i) = z-score de f_i en el texto B
- n = número de palabras funcionales analizadas

Interpretación:
- Δ bajo = estilos similares (mismo autor probable)
- Δ alto = estilos diferentes (autores diferentes)

En detección IA:
- Calcular Δ(texto_sospechoso, corpus_autor)
- Calcular Δ(texto_sospechoso, corpus_LLM)
- Si Δ_autor >> Δ_LLM → probable IA
- Si Δ_autor << Δ_LLM → probable humano

Herramientas de estilometría

HerramientaLenguajeCaracterísticasUso forense
StyloRDelta de Burrows, PCA, clusteringInvestigación académica
JGAAPJavaMúltiples métricas y clasificadoresAnálisis forense
pyStylometryPythonFlexible, scriptableAutomatización
Stylometry.orgWebAccesible, sin instalaciónAnálisis rápido
LIWCMultiplataformaAnálisis psicológico del lenguajePerfil de autor
SignaturePythonEspecializado en atribuciónAtribución de autoría

Caso práctico de estilometría

ANÁLISIS ESTILOMÉTRICO — CASO REAL

Texto sospechoso: Artículo de opinión (2.100 palabras)
Corpus de referencia del autor: 15 artículos previos (31.000 palabras)
Corpus LLM de referencia: 50 textos GPT-4 (50.000 palabras)

RESULTADOS:

1. DELTA DE BURROWS
   Δ(sospechoso, autor_humano) = 1.42
   Δ(sospechoso, corpus_GPT4)  = 0.38
   → El texto está MUCHO más cerca del estilo GPT-4

2. LONGITUD DE ORACIONES
   Autor humano: μ=18.3, σ=12.7 (burstiness=0.69)
   Texto sospechoso: μ=21.1, σ=5.4 (burstiness=0.26)
   GPT-4 típico: μ=20.8, σ=5.1 (burstiness=0.25)
   → Burstiness del sospechoso coincide con GPT-4

3. PALABRAS FUNCIONALES (top 5 diferencias)
   Palabra  | Autor | Sospechoso | GPT-4
   "pero"   | 1.8%  | 0.4%       | 0.5%
   "además" | 0.2%  | 1.1%       | 1.3%
   "sin     | 0.9%  | 0.3%       | 0.4%
   embargo"
   "es      | 0.1%  | 0.8%       | 0.9%
   importante"
   "cabe"   | 0.0%  | 0.6%       | 0.7%
   → Perfil funcional coincide con GPT-4

4. VOCABULARIO ÚNICO
   Autor humano: 347 hapax (42% del vocabulario)
   Texto sospechoso: 189 hapax (29% del vocabulario)
   GPT-4 típico: 195 hapax (31% del vocabulario)
   → Riqueza léxica del sospechoso es típica de GPT-4

CONCLUSIÓN ESTILOMÉTRICA:
El perfil estilístico del texto sospechoso presenta
una distancia estadísticamente significativa respecto
al estilo habitual del autor, y coincide con los
patrones típicos de GPT-4 en todas las métricas
analizadas. Nivel de confianza: alto (>90%).

Metodología forense para detección de texto IA

Protocolo completo

  1. Recepción del encargo: Documentar por escrito qué se pide analizar, quién lo solicita (orden judicial, parte procesal, institución educativa), y cuáles son las preguntas concretas a responder.

  2. Preservación de evidencia: Obtener el documento original en su formato nativo. Calcular hash SHA-256. Crear copia de trabajo. Si es Google Docs, solicitar exportación del historial de revisiones vía API. Documentar toda la cadena de custodia.

  3. Análisis automatizado multi-herramienta: Ejecutar mínimo 3 herramientas de detección. Documentar versión exacta de cada herramienta y fecha de análisis. Capturar pantalla de cada resultado con timestamp. Registrar configuración utilizada.

  4. Análisis de metadatos: Extraer metadatos con ExifTool/Apache Tika. Analizar tiempos de edición vs. extensión del documento. Examinar bloques de revisión (rsid en Word). Si disponible, analizar historial de Google Docs carácter por carácter.

  5. Análisis estilométrico: Si hay corpus de referencia del supuesto autor, calcular Delta de Burrows y métricas de distancia. Analizar perplejidad, burstiness y entropía manualmente. Comparar patrones de vocabulario funcional. Medir riqueza léxica y distribución de n-gramas.

  6. Verificación de contenido: Comprobar todas las citas, referencias y datos estadísticos. Buscar alucinaciones (información falsa pero plausible). Verificar coherencia interna del documento. Detectar inconsistencias con el conocimiento del supuesto autor.

  7. Análisis por secciones: No analizar solo el documento completo. Segmentar por secciones y analizar cada una individualmente. Detectar transiciones de estilo (posible mezcla humano/IA). Identificar secciones con perplejidad significativamente diferente.

  8. Triangulación de resultados: Consolidar hallazgos de todas las fuentes de análisis. Identificar convergencias (indicadores que apuntan en la misma dirección). Documentar divergencias (indicadores contradictorios). Determinar nivel de confianza global.

  9. Elaboración del informe: Redactar informe pericial con estructura clara. Incluir metodología, herramientas y versiones. Documentar todas las limitaciones. Expresar conclusiones como probabilidad, no como certeza. Incluir anexos con datos brutos y capturas.

Nivel de confianza y comunicación de resultados

ESCALA DE CONFIANZA PARA INFORMES PERICIALES

NIVEL 5 — MUY ALTA CONFIANZA (>95%)
"Con un alto grado de probabilidad, el texto fue generado
por un modelo de inteligencia artificial."
Requisitos: Convergencia de todas las herramientas + metadatos
+ estilometría + alucinaciones verificadas.

NIVEL 4 — ALTA CONFIANZA (85-95%)
"Los indicios analizados son consistentes con la generación
por inteligencia artificial, con alta probabilidad."
Requisitos: Convergencia de herramientas + al menos 2
indicadores independientes adicionales.

NIVEL 3 — CONFIANZA MEDIA (70-85%)
"Existen indicios significativos de que el texto fue
generado total o parcialmente por IA, aunque no es
posible afirmarlo con certeza."
Requisitos: Mayoría de herramientas coinciden pero
hay factores atenuantes.

NIVEL 2 — CONFIANZA BAJA (50-70%)
"Los resultados del análisis no son concluyentes.
Existen indicios tanto a favor como en contra de
la generación por IA."
Nota: Documentar todos los factores y dejar la
valoración al tribunal.

NIVEL 1 — NO CONCLUYENTE (<50%)
"El análisis no permite determinar si el texto fue
generado por IA. Las herramientas y técnicas utilizadas
no proporcionan resultados significativos."
Nota: Ser honesto. Un resultado no concluyente es
un resultado válido e importante.

Ámbito académico

SituaciónNormativa aplicableConsecuencia
TFG/TFM con IANormativa académica universitariaSuspenso, repetición, expediente
Examen con IAReglamento de evaluaciónAnulación, sanción disciplinaria
Tesis doctoral con IANormativa de doctoradoRevocación del título
Artículo científicoPolíticas editorialesRetracción, sanción ANECA
OposicionesLey del Estatuto del Empleado PúblicoExclusión del proceso selectivo

Ámbito judicial

SituaciónBase legalConsecuencia
Escrito procesal con IA no declaradaArt. 247 LEC (mala fe)Multa 180-6.000 €
Citas jurisprudenciales falsas (alucinación)Art. 247 LEC + responsabilidadMulta + posible inhabilitación
Informe pericial generado por IAArts. 335-352 LECNulidad + art. 459 CP (falso testimonio)
Documento contractual defectuoso por IAArt. 1101 CC (daños)Indemnización por daños
Falsedad documentalArts. 390-395 CP6 meses-3 años prisión

Instrucción CGPJ 2/2026

INSTRUCCIÓN 2/2026 DEL CGPJ
Sobre el uso de inteligencia artificial en la
administración de justicia

Aspectos relevantes para detección de texto IA:

1. TRANSPARENCIA
   - Obligación de declarar el uso de IA en escritos
     y resoluciones judiciales
   - Los profesionales que usen IA deben indicarlo

2. RESPONSABILIDAD
   - El profesional que usa IA es responsable del
     contenido generado
   - No puede delegar la responsabilidad en la herramienta

3. VERIFICACIÓN
   - Obligación de verificar la exactitud de los datos
     generados por IA
   - Especial atención a citas jurisprudenciales

4. PRUEBA PERICIAL
   - Se reconoce la validez de informes periciales
     sobre detección de texto IA
   - El perito debe documentar metodología y limitaciones

AI Act y obligaciones de transparencia

OBLIGACIONES DEL AI ACT PARA TEXTO GENERADO

Artículo 50.2:
"Los proveedores de sistemas de IA que generen contenido
sintético de texto que se publique con el propósito de
informar al público sobre cuestiones de interés público
deberán garantizar que el contenido sintético esté marcado
de forma legible por máquina y pueda detectarse como
generado o manipulado artificialmente."

Artículo 50.4:
"Los responsables del despliegue de un sistema de IA que
genere o manipule texto que constituya un deep fake
deberán revelar que el contenido ha sido generado o
manipulado artificialmente."

Sanciones (art. 99):
- Infracciones graves: hasta 15 millones €
  o el 3% de la facturación mundial
- Infracciones muy graves: hasta 35 millones €
  o el 7% de la facturación mundial

Falsedad documental (arts. 390-395 CP)

ArtículoSupuestoPenaAplicación a IA
390Autoridad o funcionario que falsifica documento público3-6 años + inhabilitaciónResolución judicial generada por IA con datos falsos
392Particular que falsifica documento público6 meses-3 añosEscrito procesal con citas falsas por IA
395Falsificación de documento privado6 meses-2 añosContrato/informe con datos falsos generados por IA
Mala fe procesal y detección de IA

Varios juzgados en España y EEUU ya han sancionado a abogados por presentar escritos con citas jurisprudenciales inventadas por ChatGPT. El caso más mediático fue Mata v. Avianca (SDNY, 2023), donde el abogado fue multado con $5.000. En España, la Instrucción CGPJ 2/2026 establece la obligación de declarar y verificar el uso de IA en escritos procesales.

Estándares internacionales

ISO y normativa técnica

EstándarÁreaRelevancia
ISO 27037Evidencia digitalMarco de preservación aplicable
ISO/IEC 42001Gestión de IASistema de gestión para organizaciones que usan IA
ISO/IEC 23894Gestión de riesgos IAEvaluación de riesgos incluyendo detección
NIST AI RMFFramework de riesgos IAEstándar estadounidense complementario
IEEE 2857Privacidad en IARequisitos de privacidad

ENFSI (European Network of Forensic Science Institutes)

DIRECTRICES ENFSI PARA EVIDENCIA DIGITAL

Aplicables a análisis forense de texto IA:

1. COMPETENCIA DEL PERITO
   - Formación documentada en el área de análisis
   - Actualización continua de conocimientos
   - Participación en pruebas de competencia

2. VALIDACIÓN DE MÉTODOS
   - Toda herramienta de detección debe estar validada
   - Documentar precisión, falsos positivos/negativos
   - Realizar pruebas con muestras conocidas

3. ASEGURAMIENTO DE CALIDAD
   - Procedimientos documentados
   - Trazabilidad de todas las acciones
   - Control de versiones de herramientas

4. EXPRESIÓN DE RESULTADOS
   - Usar escalas de probabilidad estandarizadas
   - Comunicar incertidumbre y limitaciones
   - No hacer afirmaciones absolutas

Limitaciones y consideraciones éticas

Limitaciones técnicas fundamentales

LimitaciónDescripciónImpacto
Imposibilidad teóricaNo existe prueba de que la detección perfecta sea posibleSiempre habrá incertidumbre
Carrera armamentísticaModelos mejoran → detección mejora → evasión mejoraNunca será un problema “resuelto”
Sesgo de entrenamientoHerramientas entrenadas mayoritariamente en inglésMenor precisión en otros idiomas
Sesgo contra no nativosEscritores no nativos producen texto más “regular”Riesgo de discriminación
Edición humanaCualquier edición reduce la detectabilidadTextos mixtos son los más difíciles
Modelos futurosModelos aún no lanzados podrían ser indetectablesHerramientas actuales podrían quedar obsoletas

Consideraciones éticas

DILEMAS ÉTICOS EN DETECCIÓN DE TEXTO IA

1. PRESUNCIÓN DE INOCENCIA
   ¿Debe asumirse que un texto es humano hasta que
   se demuestre lo contrario?
   → En contexto judicial: SÍ (presunción de inocencia)
   → En contexto académico: depende de la política

2. DERECHO A LA HERRAMIENTA
   ¿Tiene un autor derecho a usar IA sin declararlo?
   → Depende del contexto y la normativa aplicable
   → El AI Act impone obligaciones de transparencia
   → Pero no todo uso de IA es ilegítimo

3. DISCRIMINACIÓN POR IDIOMA
   Las herramientas son menos precisas en español.
   ¿Es justo aplicar el mismo estándar?
   → El perito debe comunicar esta limitación
   → Ajustar las conclusiones al nivel de precisión real

4. ESTIGMATIZACIÓN
   Un falso positivo puede destruir una carrera académica
   o profesional. ¿Se debe usar detección de IA como
   única prueba?
   → NUNCA como prueba única
   → Siempre como parte de un análisis más amplio
   → Comunicar explícitamente la tasa de falsos positivos

5. ACCESO DESIGUAL
   Las herramientas de evasión son accesibles para
   quien pueda pagarlas. ¿Crea esto una inequidad?
   → La detección es más fácil contra texto IA "bruto"
   → La evasión sofisticada deja otros rastros
Nunca acusar basándose solo en una herramienta

Acusar a alguien de usar IA basándose únicamente en el resultado de una herramienta automatizada es irresponsable y potencialmente injusto. Los falsos positivos existen (5-20% según herramienta e idioma). Cualquier conclusión debe basarse en la convergencia de múltiples indicadores independientes, y el informe debe documentar la tasa de error de cada método utilizado.

Futuro de la detección de texto IA

Tendencias 2026-2028

TendenciaDescripciónImpacto esperado
Watermarking obligatorioRegulación exigirá marcas de agua en texto IAFacilitará detección si se implementa
Modelos más “humanos”GPT-5, Claude 5 producirán texto menos detectableTécnicas actuales perderán eficacia
Detección multimodalAnalizar texto + metadatos + comportamiento conjuntoMayor precisión por triangulación
IA para detectar IAClasificadores cada vez más sofisticadosCarrera armamentística continua
Estándares forensicsISO específico para detección de contenido IAMayor rigor metodológico
Regulación armonizadaAI Act + normativa nacionalMarco legal claro
Herramientas localesDetección sin enviar texto a la nubeMejor privacidad
Detección en españolModelos específicos para españolReducción de la brecha de precisión

Tecnologías emergentes

TECNOLOGÍAS EN DESARROLLO

1. DETECCIÓN POR EMBEDDING
   Análisis del espacio vectorial de embeddings:
   - Los textos IA ocupan regiones específicas
     del espacio de embeddings
   - Clasificación por posición geométrica
   - Prometedor pero aún experimental

2. ANÁLISIS TEMPORAL DE ESCRITURA
   Sensores que registran el proceso de escritura:
   - Dinámica de pulsaciones de teclado
   - Movimientos del ratón
   - Pausas y correcciones
   - Imposible de falsificar retrospectivamente

3. BLOCKCHAIN DE CONTENIDO
   Registro inmutable de autoría:
   - Hash del contenido en blockchain
   - Timestamp verificable
   - Cadena de modificaciones
   - Interoperable con C2PA

4. VERIFICACIÓN ZERO-KNOWLEDGE
   Demostrar autoría sin revelar el contenido:
   - Pruebas criptográficas de proceso de escritura
   - Privacidad del contenido preservada
   - Verificación por terceros

5. CLASSIFICADORES ESPECÍFICOS POR IDIOMA
   Modelos entrenados exclusivamente en español:
   - Mayor precisión para textos en español
   - Consideración de regionalismos
   - Adaptación a textos legales españoles

Recomendaciones prácticas

Para el perito informático

  1. Mantener un kit de herramientas actualizado: Revisar trimestralmente las herramientas de detección. Actualizar versiones y calibrar con muestras conocidas. Incorporar nuevas herramientas a medida que se publiquen.

  2. Usar siempre múltiples métodos: Nunca basar conclusiones en una sola herramienta o técnica. Mínimo: 3 herramientas automatizadas + análisis de metadatos + análisis manual. Ideal: añadir estilometría si hay corpus de referencia.

  3. Documentar exhaustivamente: Versiones de herramientas, configuraciones, fechas de análisis. Capturas de pantalla con timestamp de cada resultado. Cadena de custodia completa de la evidencia.

  4. Comunicar limitaciones honestamente: Expresar resultados como probabilidad, no certeza. Incluir tasas de falsos positivos de cada herramienta. Señalar factores que podrían afectar la fiabilidad (idioma, longitud, dominio).

  5. Conocer el marco legal actualizado: AI Act, Instrucción CGPJ 2/2026, jurisprudencia reciente. Las obligaciones de transparencia evolucionan rápidamente.

  6. Formación continua: Asistir a conferencias de NLP y forense digital. Leer papers actualizados de ACL, EMNLP, NeurIPS. Practicar con muestras conocidas para calibrar el criterio.

  7. Ser imparcial: El perito trabaja para la verdad, no para quien le contrata. Si el análisis no es concluyente, debe decirlo claramente. Un resultado honesto de incertidumbre es más valioso que una conclusión forzada.

  8. Considerar el contexto completo: La detección técnica es solo una parte. El comportamiento del supuesto autor, el tiempo disponible, la consistencia con trabajos anteriores, y la verificación del contenido son complementos esenciales.

Para instituciones educativas

RecomendaciónPrioridadImplementación
Política clara de uso de IACríticaDefinir qué está permitido y qué no
Formación al profesoradoAltaTalleres sobre herramientas de detección
Evaluaciones adaptadasAltaDiseñar evaluaciones resistentes a IA
Herramienta institucionalMediaLicencia de GPTZero o Turnitin AI
Protocolo de investigaciónAltaProcedimiento ante sospecha de uso de IA
Proporcionalidad de sancionesAltaNo criminalizar, educar

Para empresas

RecomendaciónPrioridadImplementación
Política de uso de IACríticaDefinir usos aceptables e inaceptables
Revisión de documentos críticosAltaVerificar contratos, informes regulatorios
Cumplimiento AI ActCríticaAuditar sistemas IA propios
Formación a empleadosAltaUso responsable de IA generativa
Cláusulas contractualesMediaRequisitos de autoría en contratos con proveedores

Para abogados

RecomendaciónPrioridadImplementación
Declarar uso de IACríticaTransparencia ante el tribunal
Verificar TODAS las citasCríticaComprobar sentencias y legislación citadas
Revisar coherenciaAltaLeer y verificar todo texto generado por IA
Conocer la Instrucción CGPJ 2/2026AltaCumplir obligaciones de transparencia
Contratar perito si es necesarioMediaPara casos que requieran análisis forense

Conclusión

La detección de texto generado por inteligencia artificial es un campo técnico complejo y en rápida evolución que se ha convertido en una necesidad práctica en múltiples ámbitos: educación, justicia, empresa y administración pública. Ninguna herramienta ni técnica es infalible, y la precisión varía significativamente según el idioma (con una brecha del 9.6% entre inglés y español), la longitud del texto, el modelo generador y las técnicas de evasión empleadas.

Para el perito informático, la detección de texto IA requiere un enfoque multidisciplinar que combine herramientas automatizadas, análisis de metadatos, estilometría computacional, verificación de contenido y análisis contextual. La honestidad sobre las limitaciones y la expresión de resultados en términos de probabilidad (no de certeza) son esenciales para que el informe pericial tenga valor y credibilidad ante tribunales.

El marco legal evoluciona rápidamente: el AI Act impone obligaciones de transparencia y marcado de contenido generado por IA, la Instrucción CGPJ 2/2026 regula el uso de IA en la administración de justicia, y la jurisprudencia comienza a abordar las consecuencias del uso no declarado de IA. El perito informático forense especializado en esta materia ocupa una posición cada vez más relevante en el sistema judicial.

Referencias y fuentes

  1. Mitchell, E. et al. (2023). “DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature”. Proceedings of ICML 2023. Método estadístico de detección.

  2. Hans, A. et al. (2024). “Binoculars: Zero-Shot Detection of LLM-Generated Text”. arXiv:2401.12070. Herramienta open source de detección.

  3. Weber-Wulff, D. et al. (2023). “Testing of Detection Tools for AI-Generated Text”. International Journal for Educational Integrity, 19(26). Evaluación comparativa de herramientas.

  4. Kirchenbauer, J. et al. (2023). “A Watermark for Large Language Models”. Proceedings of ICML 2023. Watermarking estadístico de texto IA.

  5. Sadasivan, V. et al. (2023). “Can AI-Generated Text be Reliably Detected?”. arXiv:2303.11156. Análisis de limitaciones fundamentales.

  6. C2PA (Coalition for Content Provenance and Authenticity). “Technical Specification v2.1” (2025). Estándar de procedencia de contenido digital.

  7. Google DeepMind (2024). “SynthID Text: Scalable Watermarking for Language Models”. Documentación técnica de SynthID.

  8. Reglamento (UE) 2024/1689 del Parlamento Europeo y del Consejo (AI Act). Artículo 50 sobre obligaciones de transparencia.

  9. Instrucción 2/2026 del Consejo General del Poder Judicial. Directrices sobre uso de IA en la administración de justicia.

  10. Burrows, J. (2002). “‘Delta’: A Measure of Stylistic Difference and a Guide to Likely Authorship”. Literary and Linguistic Computing, 17(3), 267-287. Fundamento de la estilometría computacional.

  11. Liang, W. et al. (2024). “Monitoring AI-Modified Content at Scale”. arXiv:2403.07183. Detección a escala de contenido modificado por IA.

  12. Tian, E. (2023-2026). “GPTZero: Detection of AI-Generated Text”. Documentación técnica y reportes de precisión.

Última actualización: 30 de marzo de 2026 Categoría: Técnico Código: TEC-065

Preguntas Frecuentes

¿Cómo puedo saber si un texto fue escrito por ChatGPT?

Existen herramientas como GPTZero, Originality.ai y Copyleaks que analizan patrones estadísticos del texto. Sin embargo, ninguna es 100% fiable. Para un resultado más robusto, se recomienda combinar varias herramientas con análisis manual de estilo, verificación de contenido y, si está disponible, análisis de metadatos del documento.

¿Son fiables las herramientas de detección de texto IA en español?

La precisión en español es entre un 5% y un 15% menor que en inglés, dependiendo de la herramienta. GPTZero alcanza un 85-92% en español, mientras que en inglés supera el 95%. Factores como la longitud del texto, el modelo de IA utilizado y la edición humana posterior afectan significativamente a la fiabilidad.

¿Se puede usar un informe de detección de texto IA como prueba en un juicio?

Sí, siempre que sea elaborado por un perito cualificado que aplique una metodología rigurosa, utilice múltiples herramientas, documente las limitaciones y mantenga la cadena de custodia. Los tribunales valoran la transparencia sobre tasas de error y falsos positivos.

¿Qué consecuencias legales tiene hacer pasar texto de IA como propio?

Depende del contexto: en el ámbito académico, puede suponer la anulación del trabajo; en procedimientos judiciales, mala fe procesal (art. 247 LEC); en relaciones contractuales, posible incumplimiento; y con el AI Act, incumplimiento de obligaciones de transparencia con multas millonarias.

¿Necesitas un peritaje forense?

Si necesitas ayuda profesional con análisis forense digital, estoy aquí para ayudarte.

Solicitar Consulta Gratuita
Jonathan Izquierdo

Jonathan Izquierdo · Perito Forense

+15 años experiencia · AWS Certified

WhatsApp