¿Se puede demostrar que un texto fue escrito por IA?

Sí, mediante análisis de perplejidad, burstiness y entropía, junto con herramientas especializadas como GPTZero u Originality.ai. Un perito informático puede elaborar un informe con metodología rigurosa que documente la probabilidad de autoría artificial.

¿Es admisible en un juicio un informe sobre detección de texto IA?

Sí, siempre que el perito aplique una metodología documentada y reconocida, explique las limitaciones de las herramientas utilizadas, y mantenga la cadena de custodia de la evidencia analizada. Los tribunales españoles valoran la transparencia metodológica.

¿Qué precisión tienen las herramientas de detección de texto IA?

Las mejores herramientas alcanzan un 85-98% de precisión en inglés, pero en español la tasa baja al 70-90%. Factores como la edición humana posterior, el modelo utilizado y la longitud del texto afectan significativamente a la fiabilidad.

¿Qué consecuencias legales tiene usar IA sin declararlo?

Depende del contexto. En el ámbito académico puede suponer expulsión; en procesos judiciales, mala fe procesal (art. 247 LEC); en contratos, posible nulidad por vicio del consentimiento; y con el AI Act, multas de hasta 35 millones de euros.

LLM Forense - Análisis Forense de IA Generativa

¿Qué es el análisis forense de LLM?

El análisis forense de LLM (Large Language Model) es una subdisciplina emergente de la informática forense dedicada a identificar, preservar, analizar y documentar contenido generado por modelos de lenguaje de gran tamaño como GPT-4, Claude, Gemini, Llama o Mistral. Su objetivo principal es determinar si un texto, fragmento de código o documento fue producido total o parcialmente por inteligencia artificial generativa.

Esta disciplina ha cobrado una importancia crítica desde la explosión de la IA generativa en 2023-2024, afectando a ámbitos tan diversos como el académico (trabajos universitarios), el judicial (escritos procesales), el empresarial (informes y contratos) y el periodístico (desinformación automatizada).

Disciplina en rápida evolución

El análisis forense de LLM es una de las áreas de mayor evolución en la informática forense. Las técnicas de detección que funcionaban en 2024 pueden quedar obsoletas en meses a medida que los modelos mejoran. Un perito informático debe actualizar continuamente sus conocimientos y herramientas.

Fundamentos técnicos de los LLM

Cómo generan texto los LLM

Para entender la detección forense, es esencial comprender cómo producen texto estos modelos:

Concepto	Descripción	Relevancia forense
Tokenización	El texto se divide en tokens (subpalabras)	Los patrones de tokenización dejan huellas detectables
Predicción probabilística	Cada token se selecciona según probabilidad condicionada	Genera patrones estadísticos característicos
Temperature	Parámetro que controla la aleatoriedad	Temperature baja = texto más predecible y detectable
Top-p / Top-k	Filtros de selección de tokens	Afectan a la diversidad léxica del resultado
Beam search	Algoritmo de búsqueda de secuencias óptimas	Produce texto más coherente pero más detectable
RLHF	Ajuste fino con retroalimentación humana	Introduce sesgos estilísticos identificables

La huella estadística de los LLM

Los modelos de lenguaje producen texto con características estadísticas distintas al texto humano:

Distribución de tokens:

Texto humano:     Alta variabilidad, elecciones inesperadas
                  Perplejidad media-alta, distribución irregular

Texto LLM:        Menor variabilidad, tokens de alta probabilidad
                  Perplejidad baja, distribución más uniforme

Patrones léxicos:

Texto humano:     Vocabulario personal, muletillas, errores naturales
                  Estructuras sintácticas variables e idiosincrásicas

Texto LLM:        Vocabulario neutro, frases de transición formulaicas
                  Estructuras sintácticas equilibradas y predecibles

Esta diferencia fundamental es la base de todas las técnicas de detección forense.

Métricas clave de detección

Perplejidad (Perplexity)

La perplejidad mide cuán sorprendente es un texto para un modelo de lenguaje. Matemáticamente, es la exponencial de la entropía cruzada:

Perplejidad = 2^H(p,q)

donde H(p,q) = -Σ p(x) · log₂ q(x)

p(x) = distribución real del texto
q(x) = distribución predicha por el modelo

Interpretación forense:

Perplejidad	Interpretación	Ejemplo
Muy baja (< 10)	Alta probabilidad de generación por IA	Texto genérico de ChatGPT
Baja (10-30)	Posible generación por IA o texto muy formulaico	Textos corporativos, legales
Media (30-80)	Zona ambigua, requiere análisis adicional	Escritura profesional editada
Alta (> 80)	Probable autoría humana	Escritura creativa, coloquial

Limitación importante

La perplejidad por sí sola no es determinante. Textos humanos muy formales (contratos, normativas) pueden tener perplejidad baja, mientras que texto IA con temperature alta puede tener perplejidad elevada. Siempre se debe combinar con otras métricas.

Burstiness (Explosividad)

La burstiness o explosividad mide la variación en la longitud y complejidad de las oraciones a lo largo del texto:

Burstiness = σ(longitudes_oraciones) / μ(longitudes_oraciones)

σ = desviación estándar
μ = media

Patrones típicos:

Característica	Texto humano	Texto LLM
Longitud de oraciones	Muy variable (5-40 palabras)	Relativamente uniforme (12-25 palabras)
Complejidad	Alternancia irregular simple/compleja	Complejidad consistente
Burstiness score	Alto (> 0.7)	Bajo (< 0.4)
Patrón visual	Irregular, con picos y valles	Suave, sin grandes variaciones

Los escritores humanos naturalmente alternan entre oraciones cortas y punzantes con párrafos largos y elaborados. Los LLM tienden a producir oraciones de longitud más uniforme.

Entropía

La entropía mide la cantidad de información por token y la predictibilidad del texto:

Entropía = -Σ p(token_i) · log₂ p(token_i)

Entropía alta   → texto menos predecible → más probable humano
Entropía baja   → texto más predecible   → más probable IA

Entropía por posición en el texto:

Los LLM muestran un patrón característico donde la entropía es relativamente constante a lo largo del texto, mientras que los humanos muestran variaciones significativas, especialmente al inicio de nuevos temas o argumentos.

Análisis de n-gramas

El estudio de secuencias de n palabras consecutivas revela patrones diferenciadores:

N-grama	Patrón humano	Patrón LLM
Bigramas	Mayor diversidad, combinaciones inesperadas	Bigramas de alta frecuencia, menos creativos
Trigramas	Construcciones idiomáticas personales	Expresiones formulaicas y neutras
4-gramas	Raros o inexistentes	Frases hechas de alta probabilidad
5+ gramas	Casi nunca se repiten	Posibles repeticiones de patrones

Frecuencia de palabras funcionales

Las palabras funcionales (artículos, preposiciones, conjunciones) revelan patrones de autoría:

Indicadores LLM típicos:
- Uso excesivo de "además", "sin embargo", "en consecuencia"
- Conectores de transición formulaicos: "por otro lado", "es importante señalar"
- Verbos modales equilibrados: distribución uniforme de "puede", "debe", "podría"
- Marcadores discursivos: "cabe destacar", "es fundamental", "resulta crucial"

Herramientas de detección

GPTZero

GPTZero es una de las herramientas más reconocidas para la detección de texto generado por IA:

Característica	Detalle
Fundador	Edward Tian (Princeton University)
Lanzamiento	Enero 2023
Métricas	Perplejidad + burstiness + clasificador propietario
Precisión reportada	98% en textos largos en inglés (2026)
Precisión en español	85-92% (dependiendo del modelo y longitud)
Formatos	Texto plano, PDF, DOCX, URL
API	Disponible para integración
Uso forense	Generación de informes detallados con métricas

Funcionamiento interno:

1. Análisis de perplejidad por oración
2. Cálculo de burstiness global
3. Clasificador ML entrenado con millones de textos
4. Puntuación por párrafo (granularidad fina)
5. Detección de mezcla humano/IA
6. Informe con probabilidades por sección

Limitaciones conocidas:

Falsos positivos en textos académicos formales
Menor precisión con textos cortos (< 250 palabras)
Dificultad con textos IA editados por humanos posteriormente
Precisión reducida en idiomas distintos del inglés

Originality.ai

Originality.ai se posiciona como herramienta profesional para editores y creadores de contenido:

Característica	Detalle
Enfoque	Detección IA + plagio combinados
Modelos detectados	GPT-3.5, GPT-4, GPT-4o, Claude, Gemini, Llama, Mistral
Precisión reportada	96% (modelos GPT), 94% (Claude), 91% (Gemini)
Precisión en español	80-88%
Historial de versiones	Seguimiento de cambios en documentos
API	Disponible con escaneo masivo
Precio	Modelo de créditos por palabra

Ventajas para uso forense:

Historial de análisis con timestamps
Detección por modelo específico (identifica qué LLM se usó)
Comparación temporal de versiones de un documento
Exportación de informes en PDF

Turnitin AI Detection

Turnitin integró detección de IA en su plataforma de integridad académica:

Característica	Detalle
Sector principal	Educación (universidades, institutos)
Base de datos	Millones de trabajos académicos como referencia
Indicador	Porcentaje de texto generado por IA (0-100%)
Umbral	> 20% marcado como sospechoso
Precisión	98% con < 1% falsos positivos (inglés)
Español	Soporte desde 2024, precisión ~85%
Limitación	Solo disponible para instituciones educativas

Otras herramientas relevantes

Herramienta	Enfoque	Precisión aprox.	Idioma español
Copyleaks	Detección IA + plagio	95% (inglés)	Sí (85%)
Winston AI	Detección IA multimodelo	94% (inglés)	Parcial
Sapling AI Detector	Análisis lingüístico	90% (inglés)	Limitado
Writer AI Content Detector	Enfoque empresarial	88% (inglés)	Limitado
Binoculars	Open source, basado en perplejidad	92% (inglés)	Adaptable
DetectGPT	Método estadístico (perturbaciones)	89% (inglés)	Adaptable
GLTR	Visualización de probabilidades de tokens	N/A (exploratorio)	Sí
Ghostbuster	Combinación de modelos de referencia	93% (inglés)	Experimental

No confiar en una sola herramienta

Ninguna herramienta de detección es infalible. Un análisis forense riguroso debe utilizar al menos 3-4 herramientas diferentes, combinar análisis automatizado con inspección manual, y documentar las limitaciones de cada método. La triangulación de resultados aumenta significativamente la fiabilidad.

Técnicas avanzadas de detección

Marcas de agua digitales (Watermarking)

Las marcas de agua para texto generado por IA son una técnica prometedora que algunos proveedores de modelos están implementando:

SynthID (Google DeepMind):

Funcionamiento:
1. Durante la generación, modifica sutilmente la distribución
   de probabilidad de los tokens seleccionados
2. Introduce un patrón estadístico imperceptible para humanos
3. Un detector entrenado puede identificar el patrón
4. Resistente a parafraseo parcial y edición menor

Características:
- Integrado en Gemini desde 2024
- No afecta la calidad del texto generado
- Resistente a traducciones parciales
- Detectable con herramienta propietaria de Google

C2PA (Coalition for Content Provenance and Authenticity):

Estándar:
- Metadatos criptográficos embebidos en el contenido
- Cadena de procedencia verificable
- Firmado digitalmente por el creador/herramienta
- Adopción creciente: Adobe, Microsoft, Google, OpenAI

Aplicación a texto:
- Documentos PDF con metadatos C2PA
- Imágenes con texto generado por IA
- Limitado a formatos que soporten metadatos embebidos

Watermarking de texto por perturbación de distribución:

Método (Kirchenbauer et al., 2023):
1. Dividir vocabulario en tokens "verdes" y "rojos"
   usando una función hash del token anterior
2. Sesgar la generación hacia tokens "verdes"
3. Detectar contando proporción verde/rojo

Ventajas:
- Detectable con test estadístico simple
- No requiere acceso al modelo original
- Robustez ajustable vs. calidad del texto

Limitaciones:
- Requiere cooperación del proveedor del modelo
- Vulnerable a parafraseo extensivo
- Debates sobre libertad de expresión

Estilometría computacional

La estilometría aplica técnicas estadísticas para analizar el estilo de escritura y determinar autoría:

Técnica	Qué analiza	Aplicación forense
Frecuencia léxica	Distribución de palabras	Comparar estilo habitual del autor vs. texto sospechoso
Longitud de oraciones	Media y varianza	Detectar uniformidad artificial
Riqueza léxica	Type-token ratio	LLM tienden a vocabulario más homogéneo
Función de Zipf	Distribución de frecuencias	Desviaciones del patrón natural
Conectores discursivos	Uso de transiciones	LLM sobreutilizan ciertos conectores
Signos de puntuación	Patrones de uso	Diferencias humano/IA en puntuación
Estructura argumental	Organización del discurso	LLM siguen estructuras predecibles

Proceso estilométrico forense:

Recopilar corpus de referencia: Obtener textos anteriores verificados del supuesto autor humano (emails, documentos previos, escritos manuscritos digitalizados).
Extraer características estilísticas: Analizar ambos textos (referencia y sospechoso) con herramientas como Stylometry, JGAAP o pyStylometry.
Calcular distancia estilométrica: Medir la diferencia entre el estilo del corpus de referencia y el texto sospechoso usando métricas como Delta de Burrows o distancia coseno.
Comparar con perfil LLM: Contrastar las características del texto sospechoso con las características típicas de salidas de diferentes LLM.
Documentar hallazgos: Registrar todas las métricas, gráficos comparativos y conclusiones con intervalos de confianza.

Análisis de metadatos de documentos

Los documentos generados con ayuda de IA pueden contener metadatos reveladores:

Microsoft Word (.docx):

<!-- Metadatos potencialmente reveladores -->
<dc:creator>Usuario</dc:creator>
<cp:lastModifiedBy>Usuario</cp:lastModifiedBy>
<dcterms:created>2026-03-15T10:30:00Z</dcterms:created>
<dcterms:modified>2026-03-15T10:32:00Z</dcterms:modified>
<!-- Tiempo de edición sospechosamente corto para 5000 palabras -->

<!-- Revisiones en document.xml -->
<w:rsidR="00A1B2C3"/>  <!-- Pocos bloques de revisión -->
<!-- Un documento escrito manualmente tiene decenas de rsid -->

Indicadores en metadatos Word:

Indicador	Escritura humana	Posible uso de IA
Tiempo total de edición	Proporcional al tamaño	Muy corto para la extensión
Número de revisiones (rsid)	Decenas o cientos	Pocos (copy-paste)
Patrón de guardado	Múltiples saves incrementales	1-2 saves
Historial de deshacer	Extenso	Mínimo
Formateo	Inconsistente, manual	Uniforme (pegado de fuente)

PDF:

Metadatos PDF relevantes:
- /Producer: software que generó el PDF
- /Creator: aplicación de origen
- /CreationDate: fecha de creación
- /ModDate: fecha de modificación
- Fuentes embebidas: pueden indicar origen web (copy-paste)
- Estructura de capas: texto pegado vs. escrito en editor

Google Docs:

API de Google Docs - Historial de revisiones:
- Marca temporal de cada edición
- Carácter por carácter (granularidad máxima)
- Patrón de escritura: velocidad y pausas
- Detección de pegado masivo de texto

Indicadores de uso IA:
- Grandes bloques pegados (>500 caracteres) de una vez
- Sin patrón de escritura secuencial
- Ediciones mínimas post-pegado
- Velocidad de "escritura" imposible para humano

Google Docs como aliado forense

El historial de revisiones de Google Docs es especialmente valioso para el análisis forense de autoría IA. Cada pulsación de tecla queda registrada, permitiendo distinguir claramente entre escritura secuencial humana y pegado masivo de texto generado externamente.

Cadena de custodia para evidencia de IA

Principios fundamentales

La cadena de custodia para evidencia relacionada con texto generado por IA debe seguir los mismos principios que cualquier evidencia digital, con consideraciones adicionales:

Principio	Aplicación a evidencia LLM
Identificación	Documentar exactamente qué texto se analiza y dónde se encontró
Preservación	Hash del documento original antes de cualquier análisis
Recolección	Captura completa incluyendo metadatos y contexto
Análisis	Metodología documentada, herramientas versionadas
Presentación	Informe comprensible para no técnicos (juez, abogado)

Protocolo de preservación

Captura del documento original: Obtener el archivo en su formato nativo (.docx, .pdf, .txt). Si es contenido web, realizar captura con timestamp (Wayback Machine, captura certificada).
Cálculo de hash: Generar hash SHA-256 del archivo original antes de abrirlo o manipularlo. Documentar hash, fecha y hora.
Copia forense: Crear copia bit a bit del archivo. Trabajar siempre sobre la copia, nunca sobre el original.
Extracción de metadatos: Usar herramientas como ExifTool, Apache Tika o python-docx para extraer todos los metadatos disponibles.
Documentación del entorno: Registrar versiones de herramientas de detección utilizadas, fecha de análisis, y configuración de cada herramienta.
Análisis multicapa: Ejecutar al menos 3 herramientas de detección diferentes. Documentar cada resultado con capturas de pantalla con timestamp.
Preservación de resultados: Generar hash de cada informe de herramienta. Crear un registro cronológico de todas las acciones realizadas.

Registro de cadena de custodia

REGISTRO DE CADENA DE CUSTODIA — EVIDENCIA LLM

Caso: [Referencia]
Fecha inicio: [DD/MM/AAAA HH:MM]

EVIDENCIA
---------
Descripción: [Documento Word / texto web / email / etc.]
Origen: [URL / disco / email / etc.]
Hash SHA-256 original: [hash]
Tamaño: [bytes]
Formato: [.docx / .pdf / .txt]

RECOLECCIÓN
-----------
Fecha: [DD/MM/AAAA HH:MM]
Método: [Descarga directa / captura forense / copia certificada]
Herramienta: [FTK Imager / dd / captura manual]
Responsable: [Nombre del perito]
Hash post-recolección: [hash] — Coincide con original: [Sí/No]

ANÁLISIS
--------
Fecha inicio: [DD/MM/AAAA HH:MM]
Herramientas utilizadas:
  1. GPTZero v[X.X] — Resultado: [%]
  2. Originality.ai v[X.X] — Resultado: [%]
  3. [Herramienta 3] v[X.X] — Resultado: [%]
  4. Análisis manual estilométrico — Resultado: [hallazgos]

CONCLUSIONES
------------
Probabilidad de generación por IA: [%]
Modelo más probable: [GPT-4 / Claude / etc.]
Nivel de confianza: [Alto / Medio / Bajo]
Limitaciones identificadas: [lista]

Metodología pericial para análisis LLM

Fase 1: Recepción y preservación

El perito informático debe seguir un protocolo riguroso desde el momento en que recibe el encargo:

Paso	Acción	Documentación
1.1	Recibir encargo por escrito	Orden judicial o solicitud de parte
1.2	Identificar objeto de análisis	Qué documentos y qué cuestiones
1.3	Solicitar acceso a originales	No trabajar con copias proporcionadas por las partes sin verificar
1.4	Preservar evidencia	Hashes, copias forenses, acta notarial si procede
1.5	Documentar entorno técnico	Versiones de software, configuración de herramientas

Fase 2: Análisis técnico

Análisis automatizado (multi-herramienta):

Protocolo de análisis automatizado:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

1. PREPROCESAMIENTO
   - Extraer texto plano del documento
   - Verificar codificación (UTF-8)
   - Segmentar por secciones si el documento es largo
   - Calcular estadísticas básicas (palabras, oraciones, párrafos)

2. DETECCIÓN AUTOMATIZADA
   - Herramienta 1: GPTZero (perplejidad + burstiness)
   - Herramienta 2: Originality.ai (clasificador multimodelo)
   - Herramienta 3: Copyleaks o Winston AI (segunda opinión)
   - Herramienta 4: Binoculars u otra open source (transparencia)

3. ANÁLISIS DE METADATOS
   - Extraer metadatos con ExifTool / Apache Tika
   - Analizar historial de revisiones (Word/Google Docs)
   - Verificar tiempos de creación vs. edición
   - Buscar artefactos de copy-paste

4. ANÁLISIS ESTILOMÉTRICO
   - Calcular perplejidad, burstiness, entropía manualmente
   - Comparar con corpus de referencia del supuesto autor
   - Analizar distribución de n-gramas
   - Evaluar riqueza léxica y complejidad sintáctica

5. CONSOLIDACIÓN
   - Triangular resultados de todas las fuentes
   - Identificar convergencias y divergencias
   - Determinar nivel de confianza global

Fase 3: Análisis contextual

Más allá de las herramientas técnicas, el perito debe considerar:

Factor contextual	Relevancia
Capacidad del supuesto autor	¿Es coherente el nivel del texto con el perfil del autor?
Tiempo disponible	¿Fue posible escribir ese volumen en el tiempo registrado?
Consistencia interna	¿Hay cambios de estilo dentro del documento?
Conocimiento especializado	¿Contiene información que el autor no podría conocer?
Alucinaciones	¿Hay datos plausibles pero falsos (típico de LLM)?
Patrones de formateo	¿El formato es consistente con la herramienta declarada?
Historial de comunicaciones	¿Los textos anteriores del autor tienen estilo diferente?

Fase 4: Elaboración del informe pericial

El informe debe ser comprensible para el tribunal y riguroso técnicamente:

Estructura recomendada:

INFORME PERICIAL — ANÁLISIS DE AUTORÍA IA

1. IDENTIFICACIÓN DEL PERITO
   - Datos profesionales
   - Cualificaciones relevantes
   - Declaración de independencia

2. OBJETO DEL INFORME
   - Qué se pide analizar
   - Preguntas concretas a responder

3. DOCUMENTACIÓN EXAMINADA
   - Lista de documentos con hashes
   - Cadena de custodia

4. METODOLOGÍA
   - Herramientas utilizadas (con versiones)
   - Técnicas aplicadas
   - Limitaciones conocidas de cada método

5. ANÁLISIS Y RESULTADOS
   5.1 Análisis automatizado
       - Resultado por herramienta
       - Capturas de pantalla
   5.2 Análisis de metadatos
       - Hallazgos en metadatos
       - Análisis temporal
   5.3 Análisis estilométrico
       - Métricas calculadas
       - Comparación con corpus de referencia
   5.4 Análisis contextual
       - Valoración del contexto

6. CONCLUSIONES
   - Respuesta a las preguntas planteadas
   - Nivel de confianza (con justificación)
   - Limitaciones del análisis

7. ANEXOS
   - Datos brutos de herramientas
   - Capturas de pantalla con timestamps
   - Bibliografía científica de soporte

Clave del informe pericial

El informe debe ser transparente sobre las limitaciones. Afirmar con certeza absoluta que un texto fue generado por IA es tan peligroso como afirmar lo contrario. Las conclusiones deben expresarse en términos de probabilidad y nivel de confianza, explicando los factores que sustentan la valoración.

Admisibilidad de la evidencia en tribunales

Marco jurídico en España

La admisibilidad de informes periciales sobre detección de texto IA se enmarca en:

Norma	Artículos relevantes	Aplicación
Ley de Enjuiciamiento Civil	Arts. 335-352	Regulación de la prueba pericial
Ley de Enjuiciamiento Criminal	Arts. 456-485	Pericia en proceso penal
Código Penal	Art. 248 (estafa), 390-395 (falsedad documental)	Tipos penales aplicables
AI Act (Reglamento UE 2024/1689)	Arts. 50, 52	Obligaciones de transparencia IA
LOPD-GDD	Arts. 22, 24	Tratamiento de datos en análisis forense

Requisitos para la admisibilidad

Para que un informe pericial sobre detección de IA sea admitido y valorado por un tribunal:

Requisito	Descripción	Cómo cumplirlo
Cualificación del perito	Competencia demostrable en IA y forense digital	Titulación, certificaciones, experiencia documentada
Metodología reconocida	Basada en principios científicos aceptados	Citar papers publicados, estándares ISO
Reproducibilidad	Otro perito debe poder replicar el análisis	Documentar herramientas, versiones, parámetros
Transparencia	Explicar limitaciones y tasas de error	Incluir falsos positivos/negativos de cada herramienta
Cadena de custodia	Integridad de la evidencia demostrada	Hashes, actas, registro cronológico
Contradicción	Posibilidad de que la otra parte lo cuestione	Facilitar acceso a metodología y datos

Tasas de error y su comunicación

Un aspecto crítico para la admisibilidad es la comunicación honesta de las tasas de error:

COMUNICACIÓN DE TASAS DE ERROR

Herramienta: GPTZero (v4.2, marzo 2026)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

                    Inglés      Español
Precisión:          98.1%       89.3%
Recall:             96.4%       84.7%
Falsos positivos:    1.9%        5.2%
Falsos negativos:    3.6%       15.3%

Factores que afectan la precisión:
- Longitud del texto (> 1000 palabras = más preciso)
- Modelo del LLM (GPT-4 más detectable que Claude)
- Edición humana posterior (reduce detección)
- Idioma (español reduce precisión 5-10%)
- Dominio temático (texto técnico vs. creativo)

NOTA: Estas tasas son orientativas y varían según
las condiciones específicas de cada caso.

Falsos positivos y presunción de inocencia

Un falso positivo del 5% significa que 1 de cada 20 textos humanos podría ser clasificado erróneamente como generado por IA. En un contexto judicial, especialmente penal, esto debe comunicarse claramente. La detección de IA no puede ser la única prueba; debe acompañarse de indicios adicionales.

Jurisprudencia relevante

Aunque la jurisprudencia específica sobre detección de texto IA es aún escasa en España, existen precedentes análogos:

Referencia	Relevancia
STS 300/2015	Validez de prueba pericial informática cuando sigue metodología documentada
SAP Madrid 234/2025	Admisión de informe sobre autenticidad de documento digital
Instrucción CGPJ 2/2026	Directrices sobre uso de IA en la administración de justicia
Auto TS 17 Feb 2025	Sobre valoración de prueba pericial tecnológica
Directiva UE 2024/1689	Obligaciones de transparencia en sistemas IA de alto riesgo

Casos prácticos de análisis forense LLM

Caso 1: Fraude académico universitario

Escenario: Un profesor de la Universidad Complutense sospecha que un TFG de 80 páginas sobre derecho procesal fue generado por IA. El alumno niega el uso de ChatGPT.

Análisis realizado:

RESULTADOS DE ANÁLISIS — CASO ACADÉMICO

Documento: TFG_Derecho_Procesal_2026.docx
Extensión: 24.387 palabras (80 páginas)
Idioma: Español

1. DETECCIÓN AUTOMATIZADA
   GPTZero:        87% probabilidad IA
   Originality.ai: 92% probabilidad IA (modelo: GPT-4o)
   Copyleaks:      84% probabilidad IA
   Binoculars:     79% probabilidad IA

2. METADATOS
   Creado: 15/02/2026 14:22
   Modificado: 15/02/2026 15:47
   Tiempo total edición: 1 hora 25 minutos
   Número de revisiones (rsid): 12
   → Un TFG de 80 páginas en 85 minutos es incompatible
     con escritura humana

3. ESTILOMETRÍA
   Perplejidad media: 8.7 (muy baja)
   Burstiness: 0.23 (muy baja)
   Riqueza léxica (TTR): 0.31 (baja para texto académico)
   Conectores formulaicos: 47 instancias de "es importante
   señalar", "cabe destacar", "resulta fundamental"

4. ANÁLISIS CONTEXTUAL
   - 3 citas de sentencias inexistentes (alucinación LLM)
   - Estilo uniforme sin marca personal
   - Nivel de redacción inconsistente con trabajos previos
     del alumno (se compararon 4 trabajos anteriores)

CONCLUSIÓN: Alta probabilidad (>90%) de que el texto
fue generado total o parcialmente por un LLM tipo GPT-4.

Resultado: El tribunal académico aceptó el informe pericial. El alumno finalmente admitió el uso de ChatGPT. Se anuló el TFG.

Caso 2: Escrito procesal generado por IA

Escenario: Un abogado presenta un escrito de demanda ante un juzgado de primera instancia de Madrid. El juez detecta que el escrito contiene citas jurisprudenciales que no existen y ordena un análisis pericial.

Análisis realizado:

RESULTADOS DE ANÁLISIS — CASO JUDICIAL

Documento: Escrito_Demanda_JPI23_Madrid.pdf
Extensión: 8.450 palabras (22 páginas)
Idioma: Español

1. DETECCIÓN AUTOMATIZADA
   GPTZero:        74% probabilidad IA
   Originality.ai: 81% probabilidad IA
   Copyleaks:      69% probabilidad IA

2. VERIFICACIÓN DE CITAS
   Total citas jurisprudenciales: 14
   Citas verificadas correctas: 8
   Citas parcialmente correctas: 2
   Citas INEXISTENTES: 4
   → STS 127/2023 de 15 de marzo — NO EXISTE
   → STS 89/2024 de 7 de febrero — NO EXISTE
   → SAP Barcelona 312/2023 — EXISTE pero dice otra cosa
   → STC 45/2022 de 3 de mayo — NO EXISTE

3. ANÁLISIS ESTILÍSTICO
   - Mezcla de estilos: secciones muy formales junto
     a párrafos con estructura típica de LLM
   - Transiciones artificiales entre argumentos
   - Uso excesivo de "en este sentido", "a mayor abundamiento"

4. METADATOS PDF
   Producer: Microsoft Word 365
   Creator: [Nombre del abogado]
   CreationDate: 2026-01-20T09:15:00
   Fuentes embebidas: Calibri, Times New Roman
   → Análisis de la capa de texto revela pegado masivo

CONCLUSIÓN: Probabilidad media-alta (75-85%) de uso
parcial de LLM. Las citas inexistentes son indicador
fuerte de generación por IA (alucinación).

Implicaciones legales:

Consecuencia	Base legal	Aplicación
Mala fe procesal	Art. 247 LEC	Multa de 180 a 6.000 €
Responsabilidad disciplinaria	Estatuto General de la Abogacía	Expediente colegial
Nulidad de actuaciones	Art. 238 LOPJ	Si causó indefensión a la otra parte
Costas procesales	Art. 394 LEC	Condena en costas por temeridad

Alucinaciones como huella forense

Las alucinaciones (citas, sentencias o datos inventados pero plausibles) son uno de los indicadores más fiables de uso de LLM. Un abogado humano puede equivocarse en una cita, pero no inventa números de sentencia con formato correcto que simplemente no existen. La verificación de citas es una técnica forense especialmente eficaz.

Caso 3: Contrato generado por IA con cláusulas defectuosas

Escenario: Una empresa descubre que el contrato de compraventa de su filial (valorada en 2,3 millones de euros) contiene cláusulas contradictorias y referencias a legislación de otro país. Se sospecha que el abogado externo usó IA para redactar el contrato.

Análisis forense:

HALLAZGOS PRINCIPALES

1. CLÁUSULAS PROBLEMÁTICAS
   - Cláusula 7.2: Referencia al "Uniform Commercial Code"
     (legislación estadounidense, inaplicable en España)
   - Cláusula 12.4: Contradice la cláusula 8.1 sobre
     garantías post-venta
   - Cláusula 15: Menciona "tribunal arbitral de Londres"
     cuando el contrato establece jurisdicción española

2. ANÁLISIS DE AUTORÍA
   GPTZero: 71% IA (secciones variables: 45%-95%)
   Estilometría: Cláusulas 7, 12 y 15 muestran perfil
   estadístico diferente al resto del contrato

3. METADATOS WORD
   - Documento creado en 47 minutos (contrato de 35 páginas)
   - Solo 8 bloques de revisión (rsid)
   - Sin track changes activado

4. DAÑO ESTIMADO
   - Cláusula 12.4 contradictoria impide reclamar garantía
     por defectos detectados post-venta (€340.000)
   - Cláusula 15 genera litigio sobre jurisdicción competente

Implicaciones:

Posible negligencia profesional del abogado
Reclamación de responsabilidad civil profesional
Debate sobre el deber de diligencia al usar herramientas de IA

Caso 4: Desinformación automatizada

Escenario: Una empresa detecta que se están publicando decenas de artículos negativos sobre ella en blogs y sitios web de dudosa reputación. Sospecha de una campaña de desinformación automatizada con IA.