Análisis Forense

LLM Forense

Disciplina del análisis forense digital especializada en identificar, analizar y documentar contenido generado por modelos de lenguaje de gran tamaño (LLM), incluyendo técnicas de detección estadística, análisis de metadatos, marcas de agua digitales y metodologías periciales para presentar evidencia de autoría artificial ante tribunales.

18 min de lectura

¿Qué es el análisis forense de LLM?

El análisis forense de LLM (Large Language Model) es una subdisciplina emergente de la informática forense dedicada a identificar, preservar, analizar y documentar contenido generado por modelos de lenguaje de gran tamaño como GPT-4, Claude, Gemini, Llama o Mistral. Su objetivo principal es determinar si un texto, fragmento de código o documento fue producido total o parcialmente por inteligencia artificial generativa.

Esta disciplina ha cobrado una importancia crítica desde la explosión de la IA generativa en 2023-2024, afectando a ámbitos tan diversos como el académico (trabajos universitarios), el judicial (escritos procesales), el empresarial (informes y contratos) y el periodístico (desinformación automatizada).

Disciplina en rápida evolución

El análisis forense de LLM es una de las áreas de mayor evolución en la informática forense. Las técnicas de detección que funcionaban en 2024 pueden quedar obsoletas en meses a medida que los modelos mejoran. Un perito informático debe actualizar continuamente sus conocimientos y herramientas.

Fundamentos técnicos de los LLM

Cómo generan texto los LLM

Para entender la detección forense, es esencial comprender cómo producen texto estos modelos:

ConceptoDescripciónRelevancia forense
TokenizaciónEl texto se divide en tokens (subpalabras)Los patrones de tokenización dejan huellas detectables
Predicción probabilísticaCada token se selecciona según probabilidad condicionadaGenera patrones estadísticos característicos
TemperatureParámetro que controla la aleatoriedadTemperature baja = texto más predecible y detectable
Top-p / Top-kFiltros de selección de tokensAfectan a la diversidad léxica del resultado
Beam searchAlgoritmo de búsqueda de secuencias óptimasProduce texto más coherente pero más detectable
RLHFAjuste fino con retroalimentación humanaIntroduce sesgos estilísticos identificables

La huella estadística de los LLM

Los modelos de lenguaje producen texto con características estadísticas distintas al texto humano:

Distribución de tokens:

Texto humano:     Alta variabilidad, elecciones inesperadas
                  Perplejidad media-alta, distribución irregular

Texto LLM:        Menor variabilidad, tokens de alta probabilidad
                  Perplejidad baja, distribución más uniforme

Patrones léxicos:

Texto humano:     Vocabulario personal, muletillas, errores naturales
                  Estructuras sintácticas variables e idiosincrásicas

Texto LLM:        Vocabulario neutro, frases de transición formulaicas
                  Estructuras sintácticas equilibradas y predecibles

Esta diferencia fundamental es la base de todas las técnicas de detección forense.

Métricas clave de detección

Perplejidad (Perplexity)

La perplejidad mide cuán sorprendente es un texto para un modelo de lenguaje. Matemáticamente, es la exponencial de la entropía cruzada:

Perplejidad = 2^H(p,q)

donde H(p,q) = -Σ p(x) · log₂ q(x)

p(x) = distribución real del texto
q(x) = distribución predicha por el modelo

Interpretación forense:

PerplejidadInterpretaciónEjemplo
Muy baja (< 10)Alta probabilidad de generación por IATexto genérico de ChatGPT
Baja (10-30)Posible generación por IA o texto muy formulaicoTextos corporativos, legales
Media (30-80)Zona ambigua, requiere análisis adicionalEscritura profesional editada
Alta (> 80)Probable autoría humanaEscritura creativa, coloquial
Limitación importante

La perplejidad por sí sola no es determinante. Textos humanos muy formales (contratos, normativas) pueden tener perplejidad baja, mientras que texto IA con temperature alta puede tener perplejidad elevada. Siempre se debe combinar con otras métricas.

Burstiness (Explosividad)

La burstiness o explosividad mide la variación en la longitud y complejidad de las oraciones a lo largo del texto:

Burstiness = σ(longitudes_oraciones) / μ(longitudes_oraciones)

σ = desviación estándar
μ = media

Patrones típicos:

CaracterísticaTexto humanoTexto LLM
Longitud de oracionesMuy variable (5-40 palabras)Relativamente uniforme (12-25 palabras)
ComplejidadAlternancia irregular simple/complejaComplejidad consistente
Burstiness scoreAlto (> 0.7)Bajo (< 0.4)
Patrón visualIrregular, con picos y vallesSuave, sin grandes variaciones

Los escritores humanos naturalmente alternan entre oraciones cortas y punzantes con párrafos largos y elaborados. Los LLM tienden a producir oraciones de longitud más uniforme.

Entropía

La entropía mide la cantidad de información por token y la predictibilidad del texto:

Entropía = -Σ p(token_i) · log₂ p(token_i)

Entropía alta   → texto menos predecible → más probable humano
Entropía baja   → texto más predecible   → más probable IA

Entropía por posición en el texto:

Los LLM muestran un patrón característico donde la entropía es relativamente constante a lo largo del texto, mientras que los humanos muestran variaciones significativas, especialmente al inicio de nuevos temas o argumentos.

Análisis de n-gramas

El estudio de secuencias de n palabras consecutivas revela patrones diferenciadores:

N-gramaPatrón humanoPatrón LLM
BigramasMayor diversidad, combinaciones inesperadasBigramas de alta frecuencia, menos creativos
TrigramasConstrucciones idiomáticas personalesExpresiones formulaicas y neutras
4-gramasRaros o inexistentesFrases hechas de alta probabilidad
5+ gramasCasi nunca se repitenPosibles repeticiones de patrones

Frecuencia de palabras funcionales

Las palabras funcionales (artículos, preposiciones, conjunciones) revelan patrones de autoría:

Indicadores LLM típicos:
- Uso excesivo de "además", "sin embargo", "en consecuencia"
- Conectores de transición formulaicos: "por otro lado", "es importante señalar"
- Verbos modales equilibrados: distribución uniforme de "puede", "debe", "podría"
- Marcadores discursivos: "cabe destacar", "es fundamental", "resulta crucial"

Herramientas de detección

GPTZero

GPTZero es una de las herramientas más reconocidas para la detección de texto generado por IA:

CaracterísticaDetalle
FundadorEdward Tian (Princeton University)
LanzamientoEnero 2023
MétricasPerplejidad + burstiness + clasificador propietario
Precisión reportada98% en textos largos en inglés (2026)
Precisión en español85-92% (dependiendo del modelo y longitud)
FormatosTexto plano, PDF, DOCX, URL
APIDisponible para integración
Uso forenseGeneración de informes detallados con métricas

Funcionamiento interno:

1. Análisis de perplejidad por oración
2. Cálculo de burstiness global
3. Clasificador ML entrenado con millones de textos
4. Puntuación por párrafo (granularidad fina)
5. Detección de mezcla humano/IA
6. Informe con probabilidades por sección

Limitaciones conocidas:

  • Falsos positivos en textos académicos formales
  • Menor precisión con textos cortos (< 250 palabras)
  • Dificultad con textos IA editados por humanos posteriormente
  • Precisión reducida en idiomas distintos del inglés

Originality.ai

Originality.ai se posiciona como herramienta profesional para editores y creadores de contenido:

CaracterísticaDetalle
EnfoqueDetección IA + plagio combinados
Modelos detectadosGPT-3.5, GPT-4, GPT-4o, Claude, Gemini, Llama, Mistral
Precisión reportada96% (modelos GPT), 94% (Claude), 91% (Gemini)
Precisión en español80-88%
Historial de versionesSeguimiento de cambios en documentos
APIDisponible con escaneo masivo
PrecioModelo de créditos por palabra

Ventajas para uso forense:

  • Historial de análisis con timestamps
  • Detección por modelo específico (identifica qué LLM se usó)
  • Comparación temporal de versiones de un documento
  • Exportación de informes en PDF

Turnitin AI Detection

Turnitin integró detección de IA en su plataforma de integridad académica:

CaracterísticaDetalle
Sector principalEducación (universidades, institutos)
Base de datosMillones de trabajos académicos como referencia
IndicadorPorcentaje de texto generado por IA (0-100%)
Umbral> 20% marcado como sospechoso
Precisión98% con < 1% falsos positivos (inglés)
EspañolSoporte desde 2024, precisión ~85%
LimitaciónSolo disponible para instituciones educativas

Otras herramientas relevantes

HerramientaEnfoquePrecisión aprox.Idioma español
CopyleaksDetección IA + plagio95% (inglés)Sí (85%)
Winston AIDetección IA multimodelo94% (inglés)Parcial
Sapling AI DetectorAnálisis lingüístico90% (inglés)Limitado
Writer AI Content DetectorEnfoque empresarial88% (inglés)Limitado
BinocularsOpen source, basado en perplejidad92% (inglés)Adaptable
DetectGPTMétodo estadístico (perturbaciones)89% (inglés)Adaptable
GLTRVisualización de probabilidades de tokensN/A (exploratorio)
GhostbusterCombinación de modelos de referencia93% (inglés)Experimental
No confiar en una sola herramienta

Ninguna herramienta de detección es infalible. Un análisis forense riguroso debe utilizar al menos 3-4 herramientas diferentes, combinar análisis automatizado con inspección manual, y documentar las limitaciones de cada método. La triangulación de resultados aumenta significativamente la fiabilidad.

Técnicas avanzadas de detección

Marcas de agua digitales (Watermarking)

Las marcas de agua para texto generado por IA son una técnica prometedora que algunos proveedores de modelos están implementando:

SynthID (Google DeepMind):

Funcionamiento:
1. Durante la generación, modifica sutilmente la distribución
   de probabilidad de los tokens seleccionados
2. Introduce un patrón estadístico imperceptible para humanos
3. Un detector entrenado puede identificar el patrón
4. Resistente a parafraseo parcial y edición menor

Características:
- Integrado en Gemini desde 2024
- No afecta la calidad del texto generado
- Resistente a traducciones parciales
- Detectable con herramienta propietaria de Google

C2PA (Coalition for Content Provenance and Authenticity):

Estándar:
- Metadatos criptográficos embebidos en el contenido
- Cadena de procedencia verificable
- Firmado digitalmente por el creador/herramienta
- Adopción creciente: Adobe, Microsoft, Google, OpenAI

Aplicación a texto:
- Documentos PDF con metadatos C2PA
- Imágenes con texto generado por IA
- Limitado a formatos que soporten metadatos embebidos

Watermarking de texto por perturbación de distribución:

Método (Kirchenbauer et al., 2023):
1. Dividir vocabulario en tokens "verdes" y "rojos"
   usando una función hash del token anterior
2. Sesgar la generación hacia tokens "verdes"
3. Detectar contando proporción verde/rojo

Ventajas:
- Detectable con test estadístico simple
- No requiere acceso al modelo original
- Robustez ajustable vs. calidad del texto

Limitaciones:
- Requiere cooperación del proveedor del modelo
- Vulnerable a parafraseo extensivo
- Debates sobre libertad de expresión

Estilometría computacional

La estilometría aplica técnicas estadísticas para analizar el estilo de escritura y determinar autoría:

TécnicaQué analizaAplicación forense
Frecuencia léxicaDistribución de palabrasComparar estilo habitual del autor vs. texto sospechoso
Longitud de oracionesMedia y varianzaDetectar uniformidad artificial
Riqueza léxicaType-token ratioLLM tienden a vocabulario más homogéneo
Función de ZipfDistribución de frecuenciasDesviaciones del patrón natural
Conectores discursivosUso de transicionesLLM sobreutilizan ciertos conectores
Signos de puntuaciónPatrones de usoDiferencias humano/IA en puntuación
Estructura argumentalOrganización del discursoLLM siguen estructuras predecibles

Proceso estilométrico forense:

  1. Recopilar corpus de referencia: Obtener textos anteriores verificados del supuesto autor humano (emails, documentos previos, escritos manuscritos digitalizados).

  2. Extraer características estilísticas: Analizar ambos textos (referencia y sospechoso) con herramientas como Stylometry, JGAAP o pyStylometry.

  3. Calcular distancia estilométrica: Medir la diferencia entre el estilo del corpus de referencia y el texto sospechoso usando métricas como Delta de Burrows o distancia coseno.

  4. Comparar con perfil LLM: Contrastar las características del texto sospechoso con las características típicas de salidas de diferentes LLM.

  5. Documentar hallazgos: Registrar todas las métricas, gráficos comparativos y conclusiones con intervalos de confianza.

Análisis de metadatos de documentos

Los documentos generados con ayuda de IA pueden contener metadatos reveladores:

Microsoft Word (.docx):

<!-- Metadatos potencialmente reveladores -->
<dc:creator>Usuario</dc:creator>
<cp:lastModifiedBy>Usuario</cp:lastModifiedBy>
<dcterms:created>2026-03-15T10:30:00Z</dcterms:created>
<dcterms:modified>2026-03-15T10:32:00Z</dcterms:modified>
<!-- Tiempo de edición sospechosamente corto para 5000 palabras -->

<!-- Revisiones en document.xml -->
<w:rsidR="00A1B2C3"/>  <!-- Pocos bloques de revisión -->
<!-- Un documento escrito manualmente tiene decenas de rsid -->

Indicadores en metadatos Word:

IndicadorEscritura humanaPosible uso de IA
Tiempo total de ediciónProporcional al tamañoMuy corto para la extensión
Número de revisiones (rsid)Decenas o cientosPocos (copy-paste)
Patrón de guardadoMúltiples saves incrementales1-2 saves
Historial de deshacerExtensoMínimo
FormateoInconsistente, manualUniforme (pegado de fuente)

PDF:

Metadatos PDF relevantes:
- /Producer: software que generó el PDF
- /Creator: aplicación de origen
- /CreationDate: fecha de creación
- /ModDate: fecha de modificación
- Fuentes embebidas: pueden indicar origen web (copy-paste)
- Estructura de capas: texto pegado vs. escrito en editor

Google Docs:

API de Google Docs - Historial de revisiones:
- Marca temporal de cada edición
- Carácter por carácter (granularidad máxima)
- Patrón de escritura: velocidad y pausas
- Detección de pegado masivo de texto

Indicadores de uso IA:
- Grandes bloques pegados (>500 caracteres) de una vez
- Sin patrón de escritura secuencial
- Ediciones mínimas post-pegado
- Velocidad de "escritura" imposible para humano
Google Docs como aliado forense

El historial de revisiones de Google Docs es especialmente valioso para el análisis forense de autoría IA. Cada pulsación de tecla queda registrada, permitiendo distinguir claramente entre escritura secuencial humana y pegado masivo de texto generado externamente.

Cadena de custodia para evidencia de IA

Principios fundamentales

La cadena de custodia para evidencia relacionada con texto generado por IA debe seguir los mismos principios que cualquier evidencia digital, con consideraciones adicionales:

PrincipioAplicación a evidencia LLM
IdentificaciónDocumentar exactamente qué texto se analiza y dónde se encontró
PreservaciónHash del documento original antes de cualquier análisis
RecolecciónCaptura completa incluyendo metadatos y contexto
AnálisisMetodología documentada, herramientas versionadas
PresentaciónInforme comprensible para no técnicos (juez, abogado)

Protocolo de preservación

  1. Captura del documento original: Obtener el archivo en su formato nativo (.docx, .pdf, .txt). Si es contenido web, realizar captura con timestamp (Wayback Machine, captura certificada).

  2. Cálculo de hash: Generar hash SHA-256 del archivo original antes de abrirlo o manipularlo. Documentar hash, fecha y hora.

  3. Copia forense: Crear copia bit a bit del archivo. Trabajar siempre sobre la copia, nunca sobre el original.

  4. Extracción de metadatos: Usar herramientas como ExifTool, Apache Tika o python-docx para extraer todos los metadatos disponibles.

  5. Documentación del entorno: Registrar versiones de herramientas de detección utilizadas, fecha de análisis, y configuración de cada herramienta.

  6. Análisis multicapa: Ejecutar al menos 3 herramientas de detección diferentes. Documentar cada resultado con capturas de pantalla con timestamp.

  7. Preservación de resultados: Generar hash de cada informe de herramienta. Crear un registro cronológico de todas las acciones realizadas.

Registro de cadena de custodia

REGISTRO DE CADENA DE CUSTODIA — EVIDENCIA LLM

Caso: [Referencia]
Fecha inicio: [DD/MM/AAAA HH:MM]

EVIDENCIA
---------
Descripción: [Documento Word / texto web / email / etc.]
Origen: [URL / disco / email / etc.]
Hash SHA-256 original: [hash]
Tamaño: [bytes]
Formato: [.docx / .pdf / .txt]

RECOLECCIÓN
-----------
Fecha: [DD/MM/AAAA HH:MM]
Método: [Descarga directa / captura forense / copia certificada]
Herramienta: [FTK Imager / dd / captura manual]
Responsable: [Nombre del perito]
Hash post-recolección: [hash] — Coincide con original: [Sí/No]

ANÁLISIS
--------
Fecha inicio: [DD/MM/AAAA HH:MM]
Herramientas utilizadas:
  1. GPTZero v[X.X] — Resultado: [%]
  2. Originality.ai v[X.X] — Resultado: [%]
  3. [Herramienta 3] v[X.X] — Resultado: [%]
  4. Análisis manual estilométrico — Resultado: [hallazgos]

CONCLUSIONES
------------
Probabilidad de generación por IA: [%]
Modelo más probable: [GPT-4 / Claude / etc.]
Nivel de confianza: [Alto / Medio / Bajo]
Limitaciones identificadas: [lista]

Metodología pericial para análisis LLM

Fase 1: Recepción y preservación

El perito informático debe seguir un protocolo riguroso desde el momento en que recibe el encargo:

PasoAcciónDocumentación
1.1Recibir encargo por escritoOrden judicial o solicitud de parte
1.2Identificar objeto de análisisQué documentos y qué cuestiones
1.3Solicitar acceso a originalesNo trabajar con copias proporcionadas por las partes sin verificar
1.4Preservar evidenciaHashes, copias forenses, acta notarial si procede
1.5Documentar entorno técnicoVersiones de software, configuración de herramientas

Fase 2: Análisis técnico

Análisis automatizado (multi-herramienta):

Protocolo de análisis automatizado:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

1. PREPROCESAMIENTO
   - Extraer texto plano del documento
   - Verificar codificación (UTF-8)
   - Segmentar por secciones si el documento es largo
   - Calcular estadísticas básicas (palabras, oraciones, párrafos)

2. DETECCIÓN AUTOMATIZADA
   - Herramienta 1: GPTZero (perplejidad + burstiness)
   - Herramienta 2: Originality.ai (clasificador multimodelo)
   - Herramienta 3: Copyleaks o Winston AI (segunda opinión)
   - Herramienta 4: Binoculars u otra open source (transparencia)

3. ANÁLISIS DE METADATOS
   - Extraer metadatos con ExifTool / Apache Tika
   - Analizar historial de revisiones (Word/Google Docs)
   - Verificar tiempos de creación vs. edición
   - Buscar artefactos de copy-paste

4. ANÁLISIS ESTILOMÉTRICO
   - Calcular perplejidad, burstiness, entropía manualmente
   - Comparar con corpus de referencia del supuesto autor
   - Analizar distribución de n-gramas
   - Evaluar riqueza léxica y complejidad sintáctica

5. CONSOLIDACIÓN
   - Triangular resultados de todas las fuentes
   - Identificar convergencias y divergencias
   - Determinar nivel de confianza global

Fase 3: Análisis contextual

Más allá de las herramientas técnicas, el perito debe considerar:

Factor contextualRelevancia
Capacidad del supuesto autor¿Es coherente el nivel del texto con el perfil del autor?
Tiempo disponible¿Fue posible escribir ese volumen en el tiempo registrado?
Consistencia interna¿Hay cambios de estilo dentro del documento?
Conocimiento especializado¿Contiene información que el autor no podría conocer?
Alucinaciones¿Hay datos plausibles pero falsos (típico de LLM)?
Patrones de formateo¿El formato es consistente con la herramienta declarada?
Historial de comunicaciones¿Los textos anteriores del autor tienen estilo diferente?

Fase 4: Elaboración del informe pericial

El informe debe ser comprensible para el tribunal y riguroso técnicamente:

Estructura recomendada:

INFORME PERICIAL — ANÁLISIS DE AUTORÍA IA

1. IDENTIFICACIÓN DEL PERITO
   - Datos profesionales
   - Cualificaciones relevantes
   - Declaración de independencia

2. OBJETO DEL INFORME
   - Qué se pide analizar
   - Preguntas concretas a responder

3. DOCUMENTACIÓN EXAMINADA
   - Lista de documentos con hashes
   - Cadena de custodia

4. METODOLOGÍA
   - Herramientas utilizadas (con versiones)
   - Técnicas aplicadas
   - Limitaciones conocidas de cada método

5. ANÁLISIS Y RESULTADOS
   5.1 Análisis automatizado
       - Resultado por herramienta
       - Capturas de pantalla
   5.2 Análisis de metadatos
       - Hallazgos en metadatos
       - Análisis temporal
   5.3 Análisis estilométrico
       - Métricas calculadas
       - Comparación con corpus de referencia
   5.4 Análisis contextual
       - Valoración del contexto

6. CONCLUSIONES
   - Respuesta a las preguntas planteadas
   - Nivel de confianza (con justificación)
   - Limitaciones del análisis

7. ANEXOS
   - Datos brutos de herramientas
   - Capturas de pantalla con timestamps
   - Bibliografía científica de soporte
Clave del informe pericial

El informe debe ser transparente sobre las limitaciones. Afirmar con certeza absoluta que un texto fue generado por IA es tan peligroso como afirmar lo contrario. Las conclusiones deben expresarse en términos de probabilidad y nivel de confianza, explicando los factores que sustentan la valoración.

Admisibilidad de la evidencia en tribunales

Marco jurídico en España

La admisibilidad de informes periciales sobre detección de texto IA se enmarca en:

NormaArtículos relevantesAplicación
Ley de Enjuiciamiento CivilArts. 335-352Regulación de la prueba pericial
Ley de Enjuiciamiento CriminalArts. 456-485Pericia en proceso penal
Código PenalArt. 248 (estafa), 390-395 (falsedad documental)Tipos penales aplicables
AI Act (Reglamento UE 2024/1689)Arts. 50, 52Obligaciones de transparencia IA
LOPD-GDDArts. 22, 24Tratamiento de datos en análisis forense

Requisitos para la admisibilidad

Para que un informe pericial sobre detección de IA sea admitido y valorado por un tribunal:

RequisitoDescripciónCómo cumplirlo
Cualificación del peritoCompetencia demostrable en IA y forense digitalTitulación, certificaciones, experiencia documentada
Metodología reconocidaBasada en principios científicos aceptadosCitar papers publicados, estándares ISO
ReproducibilidadOtro perito debe poder replicar el análisisDocumentar herramientas, versiones, parámetros
TransparenciaExplicar limitaciones y tasas de errorIncluir falsos positivos/negativos de cada herramienta
Cadena de custodiaIntegridad de la evidencia demostradaHashes, actas, registro cronológico
ContradicciónPosibilidad de que la otra parte lo cuestioneFacilitar acceso a metodología y datos

Tasas de error y su comunicación

Un aspecto crítico para la admisibilidad es la comunicación honesta de las tasas de error:

COMUNICACIÓN DE TASAS DE ERROR

Herramienta: GPTZero (v4.2, marzo 2026)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

                    Inglés      Español
Precisión:          98.1%       89.3%
Recall:             96.4%       84.7%
Falsos positivos:    1.9%        5.2%
Falsos negativos:    3.6%       15.3%

Factores que afectan la precisión:
- Longitud del texto (> 1000 palabras = más preciso)
- Modelo del LLM (GPT-4 más detectable que Claude)
- Edición humana posterior (reduce detección)
- Idioma (español reduce precisión 5-10%)
- Dominio temático (texto técnico vs. creativo)

NOTA: Estas tasas son orientativas y varían según
las condiciones específicas de cada caso.
Falsos positivos y presunción de inocencia

Un falso positivo del 5% significa que 1 de cada 20 textos humanos podría ser clasificado erróneamente como generado por IA. En un contexto judicial, especialmente penal, esto debe comunicarse claramente. La detección de IA no puede ser la única prueba; debe acompañarse de indicios adicionales.

Jurisprudencia relevante

Aunque la jurisprudencia específica sobre detección de texto IA es aún escasa en España, existen precedentes análogos:

ReferenciaRelevancia
STS 300/2015Validez de prueba pericial informática cuando sigue metodología documentada
SAP Madrid 234/2025Admisión de informe sobre autenticidad de documento digital
Instrucción CGPJ 2/2026Directrices sobre uso de IA en la administración de justicia
Auto TS 17 Feb 2025Sobre valoración de prueba pericial tecnológica
Directiva UE 2024/1689Obligaciones de transparencia en sistemas IA de alto riesgo

Casos prácticos de análisis forense LLM

Caso 1: Fraude académico universitario

Escenario: Un profesor de la Universidad Complutense sospecha que un TFG de 80 páginas sobre derecho procesal fue generado por IA. El alumno niega el uso de ChatGPT.

Análisis realizado:

RESULTADOS DE ANÁLISIS — CASO ACADÉMICO

Documento: TFG_Derecho_Procesal_2026.docx
Extensión: 24.387 palabras (80 páginas)
Idioma: Español

1. DETECCIÓN AUTOMATIZADA
   GPTZero:        87% probabilidad IA
   Originality.ai: 92% probabilidad IA (modelo: GPT-4o)
   Copyleaks:      84% probabilidad IA
   Binoculars:     79% probabilidad IA

2. METADATOS
   Creado: 15/02/2026 14:22
   Modificado: 15/02/2026 15:47
   Tiempo total edición: 1 hora 25 minutos
   Número de revisiones (rsid): 12
   → Un TFG de 80 páginas en 85 minutos es incompatible
     con escritura humana

3. ESTILOMETRÍA
   Perplejidad media: 8.7 (muy baja)
   Burstiness: 0.23 (muy baja)
   Riqueza léxica (TTR): 0.31 (baja para texto académico)
   Conectores formulaicos: 47 instancias de "es importante
   señalar", "cabe destacar", "resulta fundamental"

4. ANÁLISIS CONTEXTUAL
   - 3 citas de sentencias inexistentes (alucinación LLM)
   - Estilo uniforme sin marca personal
   - Nivel de redacción inconsistente con trabajos previos
     del alumno (se compararon 4 trabajos anteriores)

CONCLUSIÓN: Alta probabilidad (>90%) de que el texto
fue generado total o parcialmente por un LLM tipo GPT-4.

Resultado: El tribunal académico aceptó el informe pericial. El alumno finalmente admitió el uso de ChatGPT. Se anuló el TFG.

Caso 2: Escrito procesal generado por IA

Escenario: Un abogado presenta un escrito de demanda ante un juzgado de primera instancia de Madrid. El juez detecta que el escrito contiene citas jurisprudenciales que no existen y ordena un análisis pericial.

Análisis realizado:

RESULTADOS DE ANÁLISIS — CASO JUDICIAL

Documento: Escrito_Demanda_JPI23_Madrid.pdf
Extensión: 8.450 palabras (22 páginas)
Idioma: Español

1. DETECCIÓN AUTOMATIZADA
   GPTZero:        74% probabilidad IA
   Originality.ai: 81% probabilidad IA
   Copyleaks:      69% probabilidad IA

2. VERIFICACIÓN DE CITAS
   Total citas jurisprudenciales: 14
   Citas verificadas correctas: 8
   Citas parcialmente correctas: 2
   Citas INEXISTENTES: 4
   → STS 127/2023 de 15 de marzo — NO EXISTE
   → STS 89/2024 de 7 de febrero — NO EXISTE
   → SAP Barcelona 312/2023 — EXISTE pero dice otra cosa
   → STC 45/2022 de 3 de mayo — NO EXISTE

3. ANÁLISIS ESTILÍSTICO
   - Mezcla de estilos: secciones muy formales junto
     a párrafos con estructura típica de LLM
   - Transiciones artificiales entre argumentos
   - Uso excesivo de "en este sentido", "a mayor abundamiento"

4. METADATOS PDF
   Producer: Microsoft Word 365
   Creator: [Nombre del abogado]
   CreationDate: 2026-01-20T09:15:00
   Fuentes embebidas: Calibri, Times New Roman
   → Análisis de la capa de texto revela pegado masivo

CONCLUSIÓN: Probabilidad media-alta (75-85%) de uso
parcial de LLM. Las citas inexistentes son indicador
fuerte de generación por IA (alucinación).

Implicaciones legales:

ConsecuenciaBase legalAplicación
Mala fe procesalArt. 247 LECMulta de 180 a 6.000 €
Responsabilidad disciplinariaEstatuto General de la AbogacíaExpediente colegial
Nulidad de actuacionesArt. 238 LOPJSi causó indefensión a la otra parte
Costas procesalesArt. 394 LECCondena en costas por temeridad
Alucinaciones como huella forense

Las alucinaciones (citas, sentencias o datos inventados pero plausibles) son uno de los indicadores más fiables de uso de LLM. Un abogado humano puede equivocarse en una cita, pero no inventa números de sentencia con formato correcto que simplemente no existen. La verificación de citas es una técnica forense especialmente eficaz.

Caso 3: Contrato generado por IA con cláusulas defectuosas

Escenario: Una empresa descubre que el contrato de compraventa de su filial (valorada en 2,3 millones de euros) contiene cláusulas contradictorias y referencias a legislación de otro país. Se sospecha que el abogado externo usó IA para redactar el contrato.

Análisis forense:

HALLAZGOS PRINCIPALES

1. CLÁUSULAS PROBLEMÁTICAS
   - Cláusula 7.2: Referencia al "Uniform Commercial Code"
     (legislación estadounidense, inaplicable en España)
   - Cláusula 12.4: Contradice la cláusula 8.1 sobre
     garantías post-venta
   - Cláusula 15: Menciona "tribunal arbitral de Londres"
     cuando el contrato establece jurisdicción española

2. ANÁLISIS DE AUTORÍA
   GPTZero: 71% IA (secciones variables: 45%-95%)
   Estilometría: Cláusulas 7, 12 y 15 muestran perfil
   estadístico diferente al resto del contrato

3. METADATOS WORD
   - Documento creado en 47 minutos (contrato de 35 páginas)
   - Solo 8 bloques de revisión (rsid)
   - Sin track changes activado

4. DAÑO ESTIMADO
   - Cláusula 12.4 contradictoria impide reclamar garantía
     por defectos detectados post-venta (€340.000)
   - Cláusula 15 genera litigio sobre jurisdicción competente

Implicaciones:

  • Posible negligencia profesional del abogado
  • Reclamación de responsabilidad civil profesional
  • Debate sobre el deber de diligencia al usar herramientas de IA

Caso 4: Desinformación automatizada

Escenario: Una empresa detecta que se están publicando decenas de artículos negativos sobre ella en blogs y sitios web de dudosa reputación. Sospecha de una campaña de desinformación automatizada con IA.

Análisis forense:

ANÁLISIS DE CAMPAÑA DE DESINFORMACIÓN

Artículos analizados: 47
Período: 15/01/2026 - 28/02/2026
Sitios web implicados: 12

1. DETECCIÓN DE IA EN ARTÍCULOS
   Promedio GPTZero: 94% probabilidad IA
   Promedio Originality.ai: 96% probabilidad IA
   → 44 de 47 artículos clasificados como IA

2. PATRONES COMUNES
   - Mismo modelo LLM en 38 artículos (GPT-4 según Originality)
   - Estructura idéntica: introducción → 5 puntos → conclusión
   - Variaciones mínimas: parafraseo automático entre artículos
   - Datos falsos presentados como estadísticas reales
   - Citas de "expertos" que no existen

3. INFRAESTRUCTURA
   - 12 dominios registrados en 48 horas
   - Mismo registrante (datos WHOIS privados)
   - Hosting compartido en proveedor de Europa del Este
   - Publicación automatizada (todos a las 03:00 UTC)

4. IMPACTO REPUTACIONAL
   - 3 artículos indexados en Google News
   - Alcance estimado: 15.000 visitas
   - Presencia en resultados de búsqueda de la marca

Contramedidas y evasión de detección

Técnicas de evasión conocidas

Es importante que el perito conozca las técnicas que se usan para evadir la detección, ya que afectan a la fiabilidad del análisis:

Técnica de evasiónEfectividadDetección forense
Parafraseo humanoAltaAnálisis de inconsistencia estilística entre secciones
Herramientas de reescrituraMedia-altaArtefactos de reescritura, vocabulario inusual
Mezcla humano/IAAltaAnálisis por secciones, detección de cambios de estilo
Temperature altaMediaAumenta perplejidad pero mantiene otros patrones
Traducción ida y vueltaMediaArtefactos de traducción, estructuras no nativas
Inserción de erroresBaja-mediaErrores artificiales sin patrón natural
Prompts personalizadosMediaAnálisis de n-gramas atípicos
Fine-tuning de modeloAltaRequiere análisis avanzado de distribución de tokens

Respuesta forense a la evasión

ESTRATEGIA ANTI-EVASIÓN

1. ANÁLISIS MULTI-GRANULARIDAD
   No analizar solo el texto completo:
   - Por párrafo (detecta mezcla humano/IA)
   - Por oración (detecta inserción de errores)
   - Por sección temática (detecta cambios de estilo)

2. ANÁLISIS TEMPORAL
   - Comparar con textos anteriores del autor
   - Verificar evolución del estilo en el tiempo
   - Buscar saltos abruptos de calidad/estilo

3. VERIFICACIÓN DE CONTENIDO
   - Comprobar TODAS las citas y referencias
   - Verificar datos estadísticos citados
   - Buscar alucinaciones (el indicador más resistente a evasión)

4. CONTEXTO CONDUCTUAL
   - Tiempos de escritura vs. extensión
   - Patrones de acceso a herramientas IA (si se tiene acceso)
   - Historial de versiones del documento

Implicaciones legales del uso no declarado de IA

En el ámbito académico

SituaciónConsecuenciaBase normativa
TFG/TFM generado por IASuspenso + posible expulsiónNormativas universitarias de integridad
Artículo científico con IARetracción + sanciónPolíticas editoriales (Nature, Science)
Examen con IAAnulación + expedienteReglamentos de evaluación
Tesis doctoral con IARevocación del títuloNormativa de doctorado

En el ámbito judicial

SituaciónConsecuenciaBase legal
Escrito procesal con citas falsas IAMala fe procesalArt. 247 LEC
Peritaje generado por IA sin declararNulidad + responsabilidad penalArts. 335-352 LEC, 459 CP
Contrato con cláusulas IA defectuosasResponsabilidad civil profesionalArt. 1902 CC
Documento notarial con texto IA erróneoResponsabilidad del notarioLey del Notariado

En el ámbito empresarial

SituaciónConsecuenciaBase legal
Informe financiero con IA no verificadaResponsabilidad por información incorrectaLey de Sociedades de Capital
Política de privacidad generada por IASanciones AEPD si es defectuosaRGPD/LOPD-GDD
Marketing con claims IA falsosCompetencia deslealLey de Competencia Desleal
Patente con descripción IAPosible nulidadLey de Patentes

AI Act y obligaciones de transparencia

El Reglamento Europeo de IA (AI Act, Reglamento UE 2024/1689) establece:

OBLIGACIONES RELEVANTES DEL AI ACT

Artículo 50 — Obligaciones de transparencia:
- Los proveedores de sistemas IA que generen contenido
  sintético (texto, audio, imagen, vídeo) deben garantizar
  que el resultado esté marcado como generado artificialmente
  y sea detectable como tal.

Artículo 52 — Interacción con personas:
- Los sistemas IA diseñados para interactuar con personas
  deben informar a la persona de que está interactuando con IA.

Sanciones:
- Infracciones graves: hasta 35 millones € o 7% facturación
- Infracciones leves: hasta 7,5 millones € o 1,5% facturación

Aplicación temporal:
- Prohibiciones: febrero 2025
- Obligaciones de transparencia: agosto 2025
- Plena aplicación: agosto 2026

Futuro del análisis forense de LLM

Tendencias 2026-2028

TendenciaImpacto en forense
Modelos más sofisticadosDetección más difícil, necesidad de técnicas avanzadas
Watermarking obligatorioFacilitará detección si se implementa universalmente
Estándares C2PACadena de procedencia verificable en documentos
Regulación AI ActObligaciones legales de marcado y transparencia
IA para detectar IACarrera armamentística entre generación y detección
Modelos locales (on-device)Dificulta rastreo del uso de IA
MultimodalidadTextos, imágenes y vídeo generados conjuntamente
Personalización masivaFine-tuning que imita estilos personales

Desafíos técnicos emergentes

DESAFÍOS PARA EL PERITO FORENSE

1. MODELOS CADA VEZ MÁS HUMANOS
   - GPT-5, Claude 4, Gemini 2 producirán texto
     estadísticamente más cercano al humano
   - Las métricas actuales (perplejidad, burstiness)
     perderán discriminación
   - Se necesitarán técnicas de análisis más sofisticadas

2. MEZCLA HUMANO-IA GENERALIZADA
   - La mayoría de textos serán parcialmente asistidos por IA
   - La pregunta no será "¿es IA?" sino "¿cuánto es IA?"
   - Necesidad de métricas graduales, no binarias

3. MODELOS PERSONALIZADOS
   - Fine-tuning que imita el estilo de un autor específico
   - Rompe las comparaciones estilométricas
   - Requiere técnicas de detección de fine-tuning

4. CONTENIDO MULTIMODAL
   - Texto generado a partir de imágenes y viceversa
   - Documentos que combinan IA textual y visual
   - Necesidad de análisis forense cross-modal

5. PRIVACIDAD Y DERECHOS
   - Tensión entre detección de IA y privacidad
   - ¿Tiene derecho el autor a no revelar sus herramientas?
   - Marco ético del análisis forense de autoría

Recomendaciones para el perito informático

Formación continua

ÁreaRecursos recomendados
Fundamentos de NLPCursos de Stanford CS224N, Hugging Face
Detección de IAPapers de ACL, EMNLP, NeurIPS
HerramientasCertificaciones de GPTZero, Originality.ai
Marco legalAI Act, jurisprudencia actualizada
EstilometríaDigital Humanities, JGAAP, Stylometry.org
Ética forenseGuías ENFSI, estándares ISO 27037

Mejores prácticas

  1. Usar siempre múltiples herramientas: Nunca basar conclusiones en una sola herramienta de detección. Mínimo 3 herramientas diferentes más análisis manual.

  2. Documentar versiones: Las herramientas de detección se actualizan frecuentemente. Registrar la versión exacta utilizada y la fecha del análisis.

  3. Expresar resultados como probabilidad: Nunca afirmar con certeza absoluta. Usar escalas como “alta probabilidad”, “indicios consistentes con”, “no se puede descartar”.

  4. Conocer las limitaciones del idioma: La mayoría de herramientas están optimizadas para inglés. Ajustar las expectativas y comunicar esta limitación al tribunal.

  5. Verificar el contenido, no solo la forma: Las alucinaciones, citas falsas y datos inventados son indicadores independientes y muy valiosos que complementan el análisis estadístico.

  6. Mantener la cadena de custodia: Aplicar los mismos estándares que para cualquier evidencia digital. Hash, copias forenses, documentación cronológica.

  7. Actualizar conocimientos trimestralmente: Los modelos de IA evolucionan rápidamente. Lo que funcionaba hace 6 meses puede no funcionar hoy.

  8. Ser imparcial: El perito debe ser objetivo. Si el análisis no es concluyente, debe decirlo claramente. Forzar una conclusión es peor que reconocer incertidumbre.

Kit de herramientas recomendado

KIT FORENSE LLM — PERITO INFORMÁTICO

HARDWARE
--------
- Estación de trabajo aislada (sin conexión a internet para análisis)
- Conexión a internet separada para herramientas cloud
- Dispositivo de almacenamiento forense (write-blocker)

SOFTWARE — DETECCIÓN
--------------------
- GPTZero (cuenta profesional con API)
- Originality.ai (cuenta con créditos)
- Copyleaks (alternativa)
- Binoculars (open source, local)
- GLTR (visualización de probabilidades)

SOFTWARE — METADATOS
--------------------
- ExifTool (metadatos de archivos)
- Apache Tika (extracción de texto y metadatos)
- python-docx (análisis de documentos Word)
- pdfplumber (análisis de PDF)

SOFTWARE — ESTILOMETRÍA
-----------------------
- JGAAP (Java Graphical Authorship Attribution Program)
- Stylo (paquete R de estilometría)
- spaCy + NLTK (análisis lingüístico Python)
- Herramientas propias de perplejidad y burstiness

SOFTWARE — DOCUMENTACIÓN
------------------------
- FTK Imager (hashing y preservación)
- Greenshot / ShareX (capturas con timestamp)
- HashCalc / sha256sum (verificación de integridad)
- LaTeX / Word (generación de informes periciales)

FUENTES DE REFERENCIA
---------------------
- ACL Anthology (papers de NLP)
- ENFSI guidelines (estándares forenses europeos)
- AI Act (texto completo y guías de aplicación)
- Jurisprudencia actualizada (CENDOJ, Aranzadi)

Glosario de términos relacionados

TérminoDefinición breve
PerplejidadMedida de cuán sorprendente es un texto para un modelo de lenguaje
BurstinessVariabilidad en la longitud y complejidad de las oraciones
EntropíaCantidad de información e imprevisibilidad del texto
AlucinaciónGeneración de información falsa pero plausible por un LLM
WatermarkingMarcas invisibles embebidas en texto generado por IA
EstilometríaAnálisis estadístico del estilo de escritura para determinar autoría
Fine-tuningAjuste de un modelo preentrenado para una tarea o estilo específico
RLHFAprendizaje por refuerzo con retroalimentación humana
TemperatureParámetro que controla la aleatoriedad en la generación de texto
TokenUnidad mínima de texto que procesa un LLM (subpalabra)
C2PAEstándar de procedencia de contenido digital
SynthIDSistema de watermarking de Google para contenido generado por IA

Referencias y fuentes

  1. Kirchenbauer, J. et al. (2023). “A Watermark for Large Language Models”. Proceedings of ICML 2023. Publicación seminal sobre watermarking de texto IA.

  2. Mitchell, E. et al. (2023). “DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature”. Proceedings of ICML 2023. Método estadístico de detección sin clasificador.

  3. Hans, A. et al. (2024). “Binoculars: Zero-Shot Detection of LLM-Generated Text”. arXiv:2401.12070. Herramienta open source de detección.

  4. Reglamento (UE) 2024/1689 del Parlamento Europeo y del Consejo (AI Act). Obligaciones de transparencia para sistemas de IA generativa.

  5. Instrucción 2/2026 del Consejo General del Poder Judicial. Directrices sobre uso de inteligencia artificial en la administración de justicia.

  6. ENFSI (European Network of Forensic Science Institutes). “Best Practice Manual for Digital Evidence”. Estándares de preservación de evidencia digital.

  7. Tian, E. (2023-2026). “GPTZero: Towards Reliable AI-Generated Text Detection”. Documentación técnica de GPTZero.

  8. Liang, W. et al. (2024). “Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews”. arXiv:2403.07183.

  9. Sadasivan, V. et al. (2023). “Can AI-Generated Text be Reliably Detected?”. arXiv:2303.11156. Análisis de limitaciones de detección.

  10. Weber-Wulff, D. et al. (2023). “Testing of Detection Tools for AI-Generated Text”. International Journal for Educational Integrity, 19(26). Evaluación comparativa de herramientas.

Última actualización: 30 de marzo de 2026 Categoría: Análisis Forense Código: ANA-060

Preguntas Frecuentes

¿Se puede demostrar que un texto fue escrito por IA?

Sí, mediante análisis de perplejidad, burstiness y entropía, junto con herramientas especializadas como GPTZero u Originality.ai. Un perito informático puede elaborar un informe con metodología rigurosa que documente la probabilidad de autoría artificial.

¿Es admisible en un juicio un informe sobre detección de texto IA?

Sí, siempre que el perito aplique una metodología documentada y reconocida, explique las limitaciones de las herramientas utilizadas, y mantenga la cadena de custodia de la evidencia analizada. Los tribunales españoles valoran la transparencia metodológica.

¿Qué precisión tienen las herramientas de detección de texto IA?

Las mejores herramientas alcanzan un 85-98% de precisión en inglés, pero en español la tasa baja al 70-90%. Factores como la edición humana posterior, el modelo utilizado y la longitud del texto afectan significativamente a la fiabilidad.

¿Qué consecuencias legales tiene usar IA sin declararlo?

Depende del contexto. En el ámbito académico puede suponer expulsión; en procesos judiciales, mala fe procesal (art. 247 LEC); en contratos, posible nulidad por vicio del consentimiento; y con el AI Act, multas de hasta 35 millones de euros.

¿Necesitas un peritaje forense?

Si necesitas ayuda profesional con análisis forense digital, estoy aquí para ayudarte.

Solicitar Consulta Gratuita
Jonathan Izquierdo

Jonathan Izquierdo · Perito Forense

+15 años experiencia · AWS Certified

WhatsApp