LLM Forense
Disciplina del análisis forense digital especializada en identificar, analizar y documentar contenido generado por modelos de lenguaje de gran tamaño (LLM), incluyendo técnicas de detección estadística, análisis de metadatos, marcas de agua digitales y metodologías periciales para presentar evidencia de autoría artificial ante tribunales.
¿Qué es el análisis forense de LLM?
El análisis forense de LLM (Large Language Model) es una subdisciplina emergente de la informática forense dedicada a identificar, preservar, analizar y documentar contenido generado por modelos de lenguaje de gran tamaño como GPT-4, Claude, Gemini, Llama o Mistral. Su objetivo principal es determinar si un texto, fragmento de código o documento fue producido total o parcialmente por inteligencia artificial generativa.
Esta disciplina ha cobrado una importancia crítica desde la explosión de la IA generativa en 2023-2024, afectando a ámbitos tan diversos como el académico (trabajos universitarios), el judicial (escritos procesales), el empresarial (informes y contratos) y el periodístico (desinformación automatizada).
Disciplina en rápida evolución
El análisis forense de LLM es una de las áreas de mayor evolución en la informática forense. Las técnicas de detección que funcionaban en 2024 pueden quedar obsoletas en meses a medida que los modelos mejoran. Un perito informático debe actualizar continuamente sus conocimientos y herramientas.
Fundamentos técnicos de los LLM
Cómo generan texto los LLM
Para entender la detección forense, es esencial comprender cómo producen texto estos modelos:
| Concepto | Descripción | Relevancia forense |
|---|---|---|
| Tokenización | El texto se divide en tokens (subpalabras) | Los patrones de tokenización dejan huellas detectables |
| Predicción probabilística | Cada token se selecciona según probabilidad condicionada | Genera patrones estadísticos característicos |
| Temperature | Parámetro que controla la aleatoriedad | Temperature baja = texto más predecible y detectable |
| Top-p / Top-k | Filtros de selección de tokens | Afectan a la diversidad léxica del resultado |
| Beam search | Algoritmo de búsqueda de secuencias óptimas | Produce texto más coherente pero más detectable |
| RLHF | Ajuste fino con retroalimentación humana | Introduce sesgos estilísticos identificables |
La huella estadística de los LLM
Los modelos de lenguaje producen texto con características estadísticas distintas al texto humano:
Distribución de tokens:
Texto humano: Alta variabilidad, elecciones inesperadas
Perplejidad media-alta, distribución irregular
Texto LLM: Menor variabilidad, tokens de alta probabilidad
Perplejidad baja, distribución más uniformePatrones léxicos:
Texto humano: Vocabulario personal, muletillas, errores naturales
Estructuras sintácticas variables e idiosincrásicas
Texto LLM: Vocabulario neutro, frases de transición formulaicas
Estructuras sintácticas equilibradas y predeciblesEsta diferencia fundamental es la base de todas las técnicas de detección forense.
Métricas clave de detección
Perplejidad (Perplexity)
La perplejidad mide cuán sorprendente es un texto para un modelo de lenguaje. Matemáticamente, es la exponencial de la entropía cruzada:
Perplejidad = 2^H(p,q)
donde H(p,q) = -Σ p(x) · log₂ q(x)
p(x) = distribución real del texto
q(x) = distribución predicha por el modeloInterpretación forense:
| Perplejidad | Interpretación | Ejemplo |
|---|---|---|
| Muy baja (< 10) | Alta probabilidad de generación por IA | Texto genérico de ChatGPT |
| Baja (10-30) | Posible generación por IA o texto muy formulaico | Textos corporativos, legales |
| Media (30-80) | Zona ambigua, requiere análisis adicional | Escritura profesional editada |
| Alta (> 80) | Probable autoría humana | Escritura creativa, coloquial |
Limitación importante
La perplejidad por sí sola no es determinante. Textos humanos muy formales (contratos, normativas) pueden tener perplejidad baja, mientras que texto IA con temperature alta puede tener perplejidad elevada. Siempre se debe combinar con otras métricas.
Burstiness (Explosividad)
La burstiness o explosividad mide la variación en la longitud y complejidad de las oraciones a lo largo del texto:
Burstiness = σ(longitudes_oraciones) / μ(longitudes_oraciones)
σ = desviación estándar
μ = mediaPatrones típicos:
| Característica | Texto humano | Texto LLM |
|---|---|---|
| Longitud de oraciones | Muy variable (5-40 palabras) | Relativamente uniforme (12-25 palabras) |
| Complejidad | Alternancia irregular simple/compleja | Complejidad consistente |
| Burstiness score | Alto (> 0.7) | Bajo (< 0.4) |
| Patrón visual | Irregular, con picos y valles | Suave, sin grandes variaciones |
Los escritores humanos naturalmente alternan entre oraciones cortas y punzantes con párrafos largos y elaborados. Los LLM tienden a producir oraciones de longitud más uniforme.
Entropía
La entropía mide la cantidad de información por token y la predictibilidad del texto:
Entropía = -Σ p(token_i) · log₂ p(token_i)
Entropía alta → texto menos predecible → más probable humano
Entropía baja → texto más predecible → más probable IAEntropía por posición en el texto:
Los LLM muestran un patrón característico donde la entropía es relativamente constante a lo largo del texto, mientras que los humanos muestran variaciones significativas, especialmente al inicio de nuevos temas o argumentos.
Análisis de n-gramas
El estudio de secuencias de n palabras consecutivas revela patrones diferenciadores:
| N-grama | Patrón humano | Patrón LLM |
|---|---|---|
| Bigramas | Mayor diversidad, combinaciones inesperadas | Bigramas de alta frecuencia, menos creativos |
| Trigramas | Construcciones idiomáticas personales | Expresiones formulaicas y neutras |
| 4-gramas | Raros o inexistentes | Frases hechas de alta probabilidad |
| 5+ gramas | Casi nunca se repiten | Posibles repeticiones de patrones |
Frecuencia de palabras funcionales
Las palabras funcionales (artículos, preposiciones, conjunciones) revelan patrones de autoría:
Indicadores LLM típicos:
- Uso excesivo de "además", "sin embargo", "en consecuencia"
- Conectores de transición formulaicos: "por otro lado", "es importante señalar"
- Verbos modales equilibrados: distribución uniforme de "puede", "debe", "podría"
- Marcadores discursivos: "cabe destacar", "es fundamental", "resulta crucial"Herramientas de detección
GPTZero
GPTZero es una de las herramientas más reconocidas para la detección de texto generado por IA:
| Característica | Detalle |
|---|---|
| Fundador | Edward Tian (Princeton University) |
| Lanzamiento | Enero 2023 |
| Métricas | Perplejidad + burstiness + clasificador propietario |
| Precisión reportada | 98% en textos largos en inglés (2026) |
| Precisión en español | 85-92% (dependiendo del modelo y longitud) |
| Formatos | Texto plano, PDF, DOCX, URL |
| API | Disponible para integración |
| Uso forense | Generación de informes detallados con métricas |
Funcionamiento interno:
1. Análisis de perplejidad por oración
2. Cálculo de burstiness global
3. Clasificador ML entrenado con millones de textos
4. Puntuación por párrafo (granularidad fina)
5. Detección de mezcla humano/IA
6. Informe con probabilidades por secciónLimitaciones conocidas:
- Falsos positivos en textos académicos formales
- Menor precisión con textos cortos (< 250 palabras)
- Dificultad con textos IA editados por humanos posteriormente
- Precisión reducida en idiomas distintos del inglés
Originality.ai
Originality.ai se posiciona como herramienta profesional para editores y creadores de contenido:
| Característica | Detalle |
|---|---|
| Enfoque | Detección IA + plagio combinados |
| Modelos detectados | GPT-3.5, GPT-4, GPT-4o, Claude, Gemini, Llama, Mistral |
| Precisión reportada | 96% (modelos GPT), 94% (Claude), 91% (Gemini) |
| Precisión en español | 80-88% |
| Historial de versiones | Seguimiento de cambios en documentos |
| API | Disponible con escaneo masivo |
| Precio | Modelo de créditos por palabra |
Ventajas para uso forense:
- Historial de análisis con timestamps
- Detección por modelo específico (identifica qué LLM se usó)
- Comparación temporal de versiones de un documento
- Exportación de informes en PDF
Turnitin AI Detection
Turnitin integró detección de IA en su plataforma de integridad académica:
| Característica | Detalle |
|---|---|
| Sector principal | Educación (universidades, institutos) |
| Base de datos | Millones de trabajos académicos como referencia |
| Indicador | Porcentaje de texto generado por IA (0-100%) |
| Umbral | > 20% marcado como sospechoso |
| Precisión | 98% con < 1% falsos positivos (inglés) |
| Español | Soporte desde 2024, precisión ~85% |
| Limitación | Solo disponible para instituciones educativas |
Otras herramientas relevantes
| Herramienta | Enfoque | Precisión aprox. | Idioma español |
|---|---|---|---|
| Copyleaks | Detección IA + plagio | 95% (inglés) | Sí (85%) |
| Winston AI | Detección IA multimodelo | 94% (inglés) | Parcial |
| Sapling AI Detector | Análisis lingüístico | 90% (inglés) | Limitado |
| Writer AI Content Detector | Enfoque empresarial | 88% (inglés) | Limitado |
| Binoculars | Open source, basado en perplejidad | 92% (inglés) | Adaptable |
| DetectGPT | Método estadístico (perturbaciones) | 89% (inglés) | Adaptable |
| GLTR | Visualización de probabilidades de tokens | N/A (exploratorio) | Sí |
| Ghostbuster | Combinación de modelos de referencia | 93% (inglés) | Experimental |
No confiar en una sola herramienta
Ninguna herramienta de detección es infalible. Un análisis forense riguroso debe utilizar al menos 3-4 herramientas diferentes, combinar análisis automatizado con inspección manual, y documentar las limitaciones de cada método. La triangulación de resultados aumenta significativamente la fiabilidad.
Técnicas avanzadas de detección
Marcas de agua digitales (Watermarking)
Las marcas de agua para texto generado por IA son una técnica prometedora que algunos proveedores de modelos están implementando:
SynthID (Google DeepMind):
Funcionamiento:
1. Durante la generación, modifica sutilmente la distribución
de probabilidad de los tokens seleccionados
2. Introduce un patrón estadístico imperceptible para humanos
3. Un detector entrenado puede identificar el patrón
4. Resistente a parafraseo parcial y edición menor
Características:
- Integrado en Gemini desde 2024
- No afecta la calidad del texto generado
- Resistente a traducciones parciales
- Detectable con herramienta propietaria de GoogleC2PA (Coalition for Content Provenance and Authenticity):
Estándar:
- Metadatos criptográficos embebidos en el contenido
- Cadena de procedencia verificable
- Firmado digitalmente por el creador/herramienta
- Adopción creciente: Adobe, Microsoft, Google, OpenAI
Aplicación a texto:
- Documentos PDF con metadatos C2PA
- Imágenes con texto generado por IA
- Limitado a formatos que soporten metadatos embebidosWatermarking de texto por perturbación de distribución:
Método (Kirchenbauer et al., 2023):
1. Dividir vocabulario en tokens "verdes" y "rojos"
usando una función hash del token anterior
2. Sesgar la generación hacia tokens "verdes"
3. Detectar contando proporción verde/rojo
Ventajas:
- Detectable con test estadístico simple
- No requiere acceso al modelo original
- Robustez ajustable vs. calidad del texto
Limitaciones:
- Requiere cooperación del proveedor del modelo
- Vulnerable a parafraseo extensivo
- Debates sobre libertad de expresiónEstilometría computacional
La estilometría aplica técnicas estadísticas para analizar el estilo de escritura y determinar autoría:
| Técnica | Qué analiza | Aplicación forense |
|---|---|---|
| Frecuencia léxica | Distribución de palabras | Comparar estilo habitual del autor vs. texto sospechoso |
| Longitud de oraciones | Media y varianza | Detectar uniformidad artificial |
| Riqueza léxica | Type-token ratio | LLM tienden a vocabulario más homogéneo |
| Función de Zipf | Distribución de frecuencias | Desviaciones del patrón natural |
| Conectores discursivos | Uso de transiciones | LLM sobreutilizan ciertos conectores |
| Signos de puntuación | Patrones de uso | Diferencias humano/IA en puntuación |
| Estructura argumental | Organización del discurso | LLM siguen estructuras predecibles |
Proceso estilométrico forense:
Recopilar corpus de referencia: Obtener textos anteriores verificados del supuesto autor humano (emails, documentos previos, escritos manuscritos digitalizados).
Extraer características estilísticas: Analizar ambos textos (referencia y sospechoso) con herramientas como Stylometry, JGAAP o pyStylometry.
Calcular distancia estilométrica: Medir la diferencia entre el estilo del corpus de referencia y el texto sospechoso usando métricas como Delta de Burrows o distancia coseno.
Comparar con perfil LLM: Contrastar las características del texto sospechoso con las características típicas de salidas de diferentes LLM.
Documentar hallazgos: Registrar todas las métricas, gráficos comparativos y conclusiones con intervalos de confianza.
Análisis de metadatos de documentos
Los documentos generados con ayuda de IA pueden contener metadatos reveladores:
Microsoft Word (.docx):
<!-- Metadatos potencialmente reveladores -->
<dc:creator>Usuario</dc:creator>
<cp:lastModifiedBy>Usuario</cp:lastModifiedBy>
<dcterms:created>2026-03-15T10:30:00Z</dcterms:created>
<dcterms:modified>2026-03-15T10:32:00Z</dcterms:modified>
<!-- Tiempo de edición sospechosamente corto para 5000 palabras -->
<!-- Revisiones en document.xml -->
<w:rsidR="00A1B2C3"/> <!-- Pocos bloques de revisión -->
<!-- Un documento escrito manualmente tiene decenas de rsid -->Indicadores en metadatos Word:
| Indicador | Escritura humana | Posible uso de IA |
|---|---|---|
| Tiempo total de edición | Proporcional al tamaño | Muy corto para la extensión |
| Número de revisiones (rsid) | Decenas o cientos | Pocos (copy-paste) |
| Patrón de guardado | Múltiples saves incrementales | 1-2 saves |
| Historial de deshacer | Extenso | Mínimo |
| Formateo | Inconsistente, manual | Uniforme (pegado de fuente) |
PDF:
Metadatos PDF relevantes:
- /Producer: software que generó el PDF
- /Creator: aplicación de origen
- /CreationDate: fecha de creación
- /ModDate: fecha de modificación
- Fuentes embebidas: pueden indicar origen web (copy-paste)
- Estructura de capas: texto pegado vs. escrito en editorGoogle Docs:
API de Google Docs - Historial de revisiones:
- Marca temporal de cada edición
- Carácter por carácter (granularidad máxima)
- Patrón de escritura: velocidad y pausas
- Detección de pegado masivo de texto
Indicadores de uso IA:
- Grandes bloques pegados (>500 caracteres) de una vez
- Sin patrón de escritura secuencial
- Ediciones mínimas post-pegado
- Velocidad de "escritura" imposible para humanoGoogle Docs como aliado forense
El historial de revisiones de Google Docs es especialmente valioso para el análisis forense de autoría IA. Cada pulsación de tecla queda registrada, permitiendo distinguir claramente entre escritura secuencial humana y pegado masivo de texto generado externamente.
Cadena de custodia para evidencia de IA
Principios fundamentales
La cadena de custodia para evidencia relacionada con texto generado por IA debe seguir los mismos principios que cualquier evidencia digital, con consideraciones adicionales:
| Principio | Aplicación a evidencia LLM |
|---|---|
| Identificación | Documentar exactamente qué texto se analiza y dónde se encontró |
| Preservación | Hash del documento original antes de cualquier análisis |
| Recolección | Captura completa incluyendo metadatos y contexto |
| Análisis | Metodología documentada, herramientas versionadas |
| Presentación | Informe comprensible para no técnicos (juez, abogado) |
Protocolo de preservación
Captura del documento original: Obtener el archivo en su formato nativo (.docx, .pdf, .txt). Si es contenido web, realizar captura con timestamp (Wayback Machine, captura certificada).
Cálculo de hash: Generar hash SHA-256 del archivo original antes de abrirlo o manipularlo. Documentar hash, fecha y hora.
Copia forense: Crear copia bit a bit del archivo. Trabajar siempre sobre la copia, nunca sobre el original.
Extracción de metadatos: Usar herramientas como ExifTool, Apache Tika o python-docx para extraer todos los metadatos disponibles.
Documentación del entorno: Registrar versiones de herramientas de detección utilizadas, fecha de análisis, y configuración de cada herramienta.
Análisis multicapa: Ejecutar al menos 3 herramientas de detección diferentes. Documentar cada resultado con capturas de pantalla con timestamp.
Preservación de resultados: Generar hash de cada informe de herramienta. Crear un registro cronológico de todas las acciones realizadas.
Registro de cadena de custodia
REGISTRO DE CADENA DE CUSTODIA — EVIDENCIA LLM
Caso: [Referencia]
Fecha inicio: [DD/MM/AAAA HH:MM]
EVIDENCIA
---------
Descripción: [Documento Word / texto web / email / etc.]
Origen: [URL / disco / email / etc.]
Hash SHA-256 original: [hash]
Tamaño: [bytes]
Formato: [.docx / .pdf / .txt]
RECOLECCIÓN
-----------
Fecha: [DD/MM/AAAA HH:MM]
Método: [Descarga directa / captura forense / copia certificada]
Herramienta: [FTK Imager / dd / captura manual]
Responsable: [Nombre del perito]
Hash post-recolección: [hash] — Coincide con original: [Sí/No]
ANÁLISIS
--------
Fecha inicio: [DD/MM/AAAA HH:MM]
Herramientas utilizadas:
1. GPTZero v[X.X] — Resultado: [%]
2. Originality.ai v[X.X] — Resultado: [%]
3. [Herramienta 3] v[X.X] — Resultado: [%]
4. Análisis manual estilométrico — Resultado: [hallazgos]
CONCLUSIONES
------------
Probabilidad de generación por IA: [%]
Modelo más probable: [GPT-4 / Claude / etc.]
Nivel de confianza: [Alto / Medio / Bajo]
Limitaciones identificadas: [lista]Metodología pericial para análisis LLM
Fase 1: Recepción y preservación
El perito informático debe seguir un protocolo riguroso desde el momento en que recibe el encargo:
| Paso | Acción | Documentación |
|---|---|---|
| 1.1 | Recibir encargo por escrito | Orden judicial o solicitud de parte |
| 1.2 | Identificar objeto de análisis | Qué documentos y qué cuestiones |
| 1.3 | Solicitar acceso a originales | No trabajar con copias proporcionadas por las partes sin verificar |
| 1.4 | Preservar evidencia | Hashes, copias forenses, acta notarial si procede |
| 1.5 | Documentar entorno técnico | Versiones de software, configuración de herramientas |
Fase 2: Análisis técnico
Análisis automatizado (multi-herramienta):
Protocolo de análisis automatizado:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
1. PREPROCESAMIENTO
- Extraer texto plano del documento
- Verificar codificación (UTF-8)
- Segmentar por secciones si el documento es largo
- Calcular estadísticas básicas (palabras, oraciones, párrafos)
2. DETECCIÓN AUTOMATIZADA
- Herramienta 1: GPTZero (perplejidad + burstiness)
- Herramienta 2: Originality.ai (clasificador multimodelo)
- Herramienta 3: Copyleaks o Winston AI (segunda opinión)
- Herramienta 4: Binoculars u otra open source (transparencia)
3. ANÁLISIS DE METADATOS
- Extraer metadatos con ExifTool / Apache Tika
- Analizar historial de revisiones (Word/Google Docs)
- Verificar tiempos de creación vs. edición
- Buscar artefactos de copy-paste
4. ANÁLISIS ESTILOMÉTRICO
- Calcular perplejidad, burstiness, entropía manualmente
- Comparar con corpus de referencia del supuesto autor
- Analizar distribución de n-gramas
- Evaluar riqueza léxica y complejidad sintáctica
5. CONSOLIDACIÓN
- Triangular resultados de todas las fuentes
- Identificar convergencias y divergencias
- Determinar nivel de confianza globalFase 3: Análisis contextual
Más allá de las herramientas técnicas, el perito debe considerar:
| Factor contextual | Relevancia |
|---|---|
| Capacidad del supuesto autor | ¿Es coherente el nivel del texto con el perfil del autor? |
| Tiempo disponible | ¿Fue posible escribir ese volumen en el tiempo registrado? |
| Consistencia interna | ¿Hay cambios de estilo dentro del documento? |
| Conocimiento especializado | ¿Contiene información que el autor no podría conocer? |
| Alucinaciones | ¿Hay datos plausibles pero falsos (típico de LLM)? |
| Patrones de formateo | ¿El formato es consistente con la herramienta declarada? |
| Historial de comunicaciones | ¿Los textos anteriores del autor tienen estilo diferente? |
Fase 4: Elaboración del informe pericial
El informe debe ser comprensible para el tribunal y riguroso técnicamente:
Estructura recomendada:
INFORME PERICIAL — ANÁLISIS DE AUTORÍA IA
1. IDENTIFICACIÓN DEL PERITO
- Datos profesionales
- Cualificaciones relevantes
- Declaración de independencia
2. OBJETO DEL INFORME
- Qué se pide analizar
- Preguntas concretas a responder
3. DOCUMENTACIÓN EXAMINADA
- Lista de documentos con hashes
- Cadena de custodia
4. METODOLOGÍA
- Herramientas utilizadas (con versiones)
- Técnicas aplicadas
- Limitaciones conocidas de cada método
5. ANÁLISIS Y RESULTADOS
5.1 Análisis automatizado
- Resultado por herramienta
- Capturas de pantalla
5.2 Análisis de metadatos
- Hallazgos en metadatos
- Análisis temporal
5.3 Análisis estilométrico
- Métricas calculadas
- Comparación con corpus de referencia
5.4 Análisis contextual
- Valoración del contexto
6. CONCLUSIONES
- Respuesta a las preguntas planteadas
- Nivel de confianza (con justificación)
- Limitaciones del análisis
7. ANEXOS
- Datos brutos de herramientas
- Capturas de pantalla con timestamps
- Bibliografía científica de soporteClave del informe pericial
El informe debe ser transparente sobre las limitaciones. Afirmar con certeza absoluta que un texto fue generado por IA es tan peligroso como afirmar lo contrario. Las conclusiones deben expresarse en términos de probabilidad y nivel de confianza, explicando los factores que sustentan la valoración.
Admisibilidad de la evidencia en tribunales
Marco jurídico en España
La admisibilidad de informes periciales sobre detección de texto IA se enmarca en:
| Norma | Artículos relevantes | Aplicación |
|---|---|---|
| Ley de Enjuiciamiento Civil | Arts. 335-352 | Regulación de la prueba pericial |
| Ley de Enjuiciamiento Criminal | Arts. 456-485 | Pericia en proceso penal |
| Código Penal | Art. 248 (estafa), 390-395 (falsedad documental) | Tipos penales aplicables |
| AI Act (Reglamento UE 2024/1689) | Arts. 50, 52 | Obligaciones de transparencia IA |
| LOPD-GDD | Arts. 22, 24 | Tratamiento de datos en análisis forense |
Requisitos para la admisibilidad
Para que un informe pericial sobre detección de IA sea admitido y valorado por un tribunal:
| Requisito | Descripción | Cómo cumplirlo |
|---|---|---|
| Cualificación del perito | Competencia demostrable en IA y forense digital | Titulación, certificaciones, experiencia documentada |
| Metodología reconocida | Basada en principios científicos aceptados | Citar papers publicados, estándares ISO |
| Reproducibilidad | Otro perito debe poder replicar el análisis | Documentar herramientas, versiones, parámetros |
| Transparencia | Explicar limitaciones y tasas de error | Incluir falsos positivos/negativos de cada herramienta |
| Cadena de custodia | Integridad de la evidencia demostrada | Hashes, actas, registro cronológico |
| Contradicción | Posibilidad de que la otra parte lo cuestione | Facilitar acceso a metodología y datos |
Tasas de error y su comunicación
Un aspecto crítico para la admisibilidad es la comunicación honesta de las tasas de error:
COMUNICACIÓN DE TASAS DE ERROR
Herramienta: GPTZero (v4.2, marzo 2026)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Inglés Español
Precisión: 98.1% 89.3%
Recall: 96.4% 84.7%
Falsos positivos: 1.9% 5.2%
Falsos negativos: 3.6% 15.3%
Factores que afectan la precisión:
- Longitud del texto (> 1000 palabras = más preciso)
- Modelo del LLM (GPT-4 más detectable que Claude)
- Edición humana posterior (reduce detección)
- Idioma (español reduce precisión 5-10%)
- Dominio temático (texto técnico vs. creativo)
NOTA: Estas tasas son orientativas y varían según
las condiciones específicas de cada caso.Falsos positivos y presunción de inocencia
Un falso positivo del 5% significa que 1 de cada 20 textos humanos podría ser clasificado erróneamente como generado por IA. En un contexto judicial, especialmente penal, esto debe comunicarse claramente. La detección de IA no puede ser la única prueba; debe acompañarse de indicios adicionales.
Jurisprudencia relevante
Aunque la jurisprudencia específica sobre detección de texto IA es aún escasa en España, existen precedentes análogos:
| Referencia | Relevancia |
|---|---|
| STS 300/2015 | Validez de prueba pericial informática cuando sigue metodología documentada |
| SAP Madrid 234/2025 | Admisión de informe sobre autenticidad de documento digital |
| Instrucción CGPJ 2/2026 | Directrices sobre uso de IA en la administración de justicia |
| Auto TS 17 Feb 2025 | Sobre valoración de prueba pericial tecnológica |
| Directiva UE 2024/1689 | Obligaciones de transparencia en sistemas IA de alto riesgo |
Casos prácticos de análisis forense LLM
Caso 1: Fraude académico universitario
Escenario: Un profesor de la Universidad Complutense sospecha que un TFG de 80 páginas sobre derecho procesal fue generado por IA. El alumno niega el uso de ChatGPT.
Análisis realizado:
RESULTADOS DE ANÁLISIS — CASO ACADÉMICO
Documento: TFG_Derecho_Procesal_2026.docx
Extensión: 24.387 palabras (80 páginas)
Idioma: Español
1. DETECCIÓN AUTOMATIZADA
GPTZero: 87% probabilidad IA
Originality.ai: 92% probabilidad IA (modelo: GPT-4o)
Copyleaks: 84% probabilidad IA
Binoculars: 79% probabilidad IA
2. METADATOS
Creado: 15/02/2026 14:22
Modificado: 15/02/2026 15:47
Tiempo total edición: 1 hora 25 minutos
Número de revisiones (rsid): 12
→ Un TFG de 80 páginas en 85 minutos es incompatible
con escritura humana
3. ESTILOMETRÍA
Perplejidad media: 8.7 (muy baja)
Burstiness: 0.23 (muy baja)
Riqueza léxica (TTR): 0.31 (baja para texto académico)
Conectores formulaicos: 47 instancias de "es importante
señalar", "cabe destacar", "resulta fundamental"
4. ANÁLISIS CONTEXTUAL
- 3 citas de sentencias inexistentes (alucinación LLM)
- Estilo uniforme sin marca personal
- Nivel de redacción inconsistente con trabajos previos
del alumno (se compararon 4 trabajos anteriores)
CONCLUSIÓN: Alta probabilidad (>90%) de que el texto
fue generado total o parcialmente por un LLM tipo GPT-4.Resultado: El tribunal académico aceptó el informe pericial. El alumno finalmente admitió el uso de ChatGPT. Se anuló el TFG.
Caso 2: Escrito procesal generado por IA
Escenario: Un abogado presenta un escrito de demanda ante un juzgado de primera instancia de Madrid. El juez detecta que el escrito contiene citas jurisprudenciales que no existen y ordena un análisis pericial.
Análisis realizado:
RESULTADOS DE ANÁLISIS — CASO JUDICIAL
Documento: Escrito_Demanda_JPI23_Madrid.pdf
Extensión: 8.450 palabras (22 páginas)
Idioma: Español
1. DETECCIÓN AUTOMATIZADA
GPTZero: 74% probabilidad IA
Originality.ai: 81% probabilidad IA
Copyleaks: 69% probabilidad IA
2. VERIFICACIÓN DE CITAS
Total citas jurisprudenciales: 14
Citas verificadas correctas: 8
Citas parcialmente correctas: 2
Citas INEXISTENTES: 4
→ STS 127/2023 de 15 de marzo — NO EXISTE
→ STS 89/2024 de 7 de febrero — NO EXISTE
→ SAP Barcelona 312/2023 — EXISTE pero dice otra cosa
→ STC 45/2022 de 3 de mayo — NO EXISTE
3. ANÁLISIS ESTILÍSTICO
- Mezcla de estilos: secciones muy formales junto
a párrafos con estructura típica de LLM
- Transiciones artificiales entre argumentos
- Uso excesivo de "en este sentido", "a mayor abundamiento"
4. METADATOS PDF
Producer: Microsoft Word 365
Creator: [Nombre del abogado]
CreationDate: 2026-01-20T09:15:00
Fuentes embebidas: Calibri, Times New Roman
→ Análisis de la capa de texto revela pegado masivo
CONCLUSIÓN: Probabilidad media-alta (75-85%) de uso
parcial de LLM. Las citas inexistentes son indicador
fuerte de generación por IA (alucinación).Implicaciones legales:
| Consecuencia | Base legal | Aplicación |
|---|---|---|
| Mala fe procesal | Art. 247 LEC | Multa de 180 a 6.000 € |
| Responsabilidad disciplinaria | Estatuto General de la Abogacía | Expediente colegial |
| Nulidad de actuaciones | Art. 238 LOPJ | Si causó indefensión a la otra parte |
| Costas procesales | Art. 394 LEC | Condena en costas por temeridad |
Alucinaciones como huella forense
Las alucinaciones (citas, sentencias o datos inventados pero plausibles) son uno de los indicadores más fiables de uso de LLM. Un abogado humano puede equivocarse en una cita, pero no inventa números de sentencia con formato correcto que simplemente no existen. La verificación de citas es una técnica forense especialmente eficaz.
Caso 3: Contrato generado por IA con cláusulas defectuosas
Escenario: Una empresa descubre que el contrato de compraventa de su filial (valorada en 2,3 millones de euros) contiene cláusulas contradictorias y referencias a legislación de otro país. Se sospecha que el abogado externo usó IA para redactar el contrato.
Análisis forense:
HALLAZGOS PRINCIPALES
1. CLÁUSULAS PROBLEMÁTICAS
- Cláusula 7.2: Referencia al "Uniform Commercial Code"
(legislación estadounidense, inaplicable en España)
- Cláusula 12.4: Contradice la cláusula 8.1 sobre
garantías post-venta
- Cláusula 15: Menciona "tribunal arbitral de Londres"
cuando el contrato establece jurisdicción española
2. ANÁLISIS DE AUTORÍA
GPTZero: 71% IA (secciones variables: 45%-95%)
Estilometría: Cláusulas 7, 12 y 15 muestran perfil
estadístico diferente al resto del contrato
3. METADATOS WORD
- Documento creado en 47 minutos (contrato de 35 páginas)
- Solo 8 bloques de revisión (rsid)
- Sin track changes activado
4. DAÑO ESTIMADO
- Cláusula 12.4 contradictoria impide reclamar garantía
por defectos detectados post-venta (€340.000)
- Cláusula 15 genera litigio sobre jurisdicción competenteImplicaciones:
- Posible negligencia profesional del abogado
- Reclamación de responsabilidad civil profesional
- Debate sobre el deber de diligencia al usar herramientas de IA
Caso 4: Desinformación automatizada
Escenario: Una empresa detecta que se están publicando decenas de artículos negativos sobre ella en blogs y sitios web de dudosa reputación. Sospecha de una campaña de desinformación automatizada con IA.
Análisis forense:
ANÁLISIS DE CAMPAÑA DE DESINFORMACIÓN
Artículos analizados: 47
Período: 15/01/2026 - 28/02/2026
Sitios web implicados: 12
1. DETECCIÓN DE IA EN ARTÍCULOS
Promedio GPTZero: 94% probabilidad IA
Promedio Originality.ai: 96% probabilidad IA
→ 44 de 47 artículos clasificados como IA
2. PATRONES COMUNES
- Mismo modelo LLM en 38 artículos (GPT-4 según Originality)
- Estructura idéntica: introducción → 5 puntos → conclusión
- Variaciones mínimas: parafraseo automático entre artículos
- Datos falsos presentados como estadísticas reales
- Citas de "expertos" que no existen
3. INFRAESTRUCTURA
- 12 dominios registrados en 48 horas
- Mismo registrante (datos WHOIS privados)
- Hosting compartido en proveedor de Europa del Este
- Publicación automatizada (todos a las 03:00 UTC)
4. IMPACTO REPUTACIONAL
- 3 artículos indexados en Google News
- Alcance estimado: 15.000 visitas
- Presencia en resultados de búsqueda de la marcaContramedidas y evasión de detección
Técnicas de evasión conocidas
Es importante que el perito conozca las técnicas que se usan para evadir la detección, ya que afectan a la fiabilidad del análisis:
| Técnica de evasión | Efectividad | Detección forense |
|---|---|---|
| Parafraseo humano | Alta | Análisis de inconsistencia estilística entre secciones |
| Herramientas de reescritura | Media-alta | Artefactos de reescritura, vocabulario inusual |
| Mezcla humano/IA | Alta | Análisis por secciones, detección de cambios de estilo |
| Temperature alta | Media | Aumenta perplejidad pero mantiene otros patrones |
| Traducción ida y vuelta | Media | Artefactos de traducción, estructuras no nativas |
| Inserción de errores | Baja-media | Errores artificiales sin patrón natural |
| Prompts personalizados | Media | Análisis de n-gramas atípicos |
| Fine-tuning de modelo | Alta | Requiere análisis avanzado de distribución de tokens |
Respuesta forense a la evasión
ESTRATEGIA ANTI-EVASIÓN
1. ANÁLISIS MULTI-GRANULARIDAD
No analizar solo el texto completo:
- Por párrafo (detecta mezcla humano/IA)
- Por oración (detecta inserción de errores)
- Por sección temática (detecta cambios de estilo)
2. ANÁLISIS TEMPORAL
- Comparar con textos anteriores del autor
- Verificar evolución del estilo en el tiempo
- Buscar saltos abruptos de calidad/estilo
3. VERIFICACIÓN DE CONTENIDO
- Comprobar TODAS las citas y referencias
- Verificar datos estadísticos citados
- Buscar alucinaciones (el indicador más resistente a evasión)
4. CONTEXTO CONDUCTUAL
- Tiempos de escritura vs. extensión
- Patrones de acceso a herramientas IA (si se tiene acceso)
- Historial de versiones del documentoImplicaciones legales del uso no declarado de IA
En el ámbito académico
| Situación | Consecuencia | Base normativa |
|---|---|---|
| TFG/TFM generado por IA | Suspenso + posible expulsión | Normativas universitarias de integridad |
| Artículo científico con IA | Retracción + sanción | Políticas editoriales (Nature, Science) |
| Examen con IA | Anulación + expediente | Reglamentos de evaluación |
| Tesis doctoral con IA | Revocación del título | Normativa de doctorado |
En el ámbito judicial
| Situación | Consecuencia | Base legal |
|---|---|---|
| Escrito procesal con citas falsas IA | Mala fe procesal | Art. 247 LEC |
| Peritaje generado por IA sin declarar | Nulidad + responsabilidad penal | Arts. 335-352 LEC, 459 CP |
| Contrato con cláusulas IA defectuosas | Responsabilidad civil profesional | Art. 1902 CC |
| Documento notarial con texto IA erróneo | Responsabilidad del notario | Ley del Notariado |
En el ámbito empresarial
| Situación | Consecuencia | Base legal |
|---|---|---|
| Informe financiero con IA no verificada | Responsabilidad por información incorrecta | Ley de Sociedades de Capital |
| Política de privacidad generada por IA | Sanciones AEPD si es defectuosa | RGPD/LOPD-GDD |
| Marketing con claims IA falsos | Competencia desleal | Ley de Competencia Desleal |
| Patente con descripción IA | Posible nulidad | Ley de Patentes |
AI Act y obligaciones de transparencia
El Reglamento Europeo de IA (AI Act, Reglamento UE 2024/1689) establece:
OBLIGACIONES RELEVANTES DEL AI ACT
Artículo 50 — Obligaciones de transparencia:
- Los proveedores de sistemas IA que generen contenido
sintético (texto, audio, imagen, vídeo) deben garantizar
que el resultado esté marcado como generado artificialmente
y sea detectable como tal.
Artículo 52 — Interacción con personas:
- Los sistemas IA diseñados para interactuar con personas
deben informar a la persona de que está interactuando con IA.
Sanciones:
- Infracciones graves: hasta 35 millones € o 7% facturación
- Infracciones leves: hasta 7,5 millones € o 1,5% facturación
Aplicación temporal:
- Prohibiciones: febrero 2025
- Obligaciones de transparencia: agosto 2025
- Plena aplicación: agosto 2026Futuro del análisis forense de LLM
Tendencias 2026-2028
| Tendencia | Impacto en forense |
|---|---|
| Modelos más sofisticados | Detección más difícil, necesidad de técnicas avanzadas |
| Watermarking obligatorio | Facilitará detección si se implementa universalmente |
| Estándares C2PA | Cadena de procedencia verificable en documentos |
| Regulación AI Act | Obligaciones legales de marcado y transparencia |
| IA para detectar IA | Carrera armamentística entre generación y detección |
| Modelos locales (on-device) | Dificulta rastreo del uso de IA |
| Multimodalidad | Textos, imágenes y vídeo generados conjuntamente |
| Personalización masiva | Fine-tuning que imita estilos personales |
Desafíos técnicos emergentes
DESAFÍOS PARA EL PERITO FORENSE
1. MODELOS CADA VEZ MÁS HUMANOS
- GPT-5, Claude 4, Gemini 2 producirán texto
estadísticamente más cercano al humano
- Las métricas actuales (perplejidad, burstiness)
perderán discriminación
- Se necesitarán técnicas de análisis más sofisticadas
2. MEZCLA HUMANO-IA GENERALIZADA
- La mayoría de textos serán parcialmente asistidos por IA
- La pregunta no será "¿es IA?" sino "¿cuánto es IA?"
- Necesidad de métricas graduales, no binarias
3. MODELOS PERSONALIZADOS
- Fine-tuning que imita el estilo de un autor específico
- Rompe las comparaciones estilométricas
- Requiere técnicas de detección de fine-tuning
4. CONTENIDO MULTIMODAL
- Texto generado a partir de imágenes y viceversa
- Documentos que combinan IA textual y visual
- Necesidad de análisis forense cross-modal
5. PRIVACIDAD Y DERECHOS
- Tensión entre detección de IA y privacidad
- ¿Tiene derecho el autor a no revelar sus herramientas?
- Marco ético del análisis forense de autoríaRecomendaciones para el perito informático
Formación continua
| Área | Recursos recomendados |
|---|---|
| Fundamentos de NLP | Cursos de Stanford CS224N, Hugging Face |
| Detección de IA | Papers de ACL, EMNLP, NeurIPS |
| Herramientas | Certificaciones de GPTZero, Originality.ai |
| Marco legal | AI Act, jurisprudencia actualizada |
| Estilometría | Digital Humanities, JGAAP, Stylometry.org |
| Ética forense | Guías ENFSI, estándares ISO 27037 |
Mejores prácticas
Usar siempre múltiples herramientas: Nunca basar conclusiones en una sola herramienta de detección. Mínimo 3 herramientas diferentes más análisis manual.
Documentar versiones: Las herramientas de detección se actualizan frecuentemente. Registrar la versión exacta utilizada y la fecha del análisis.
Expresar resultados como probabilidad: Nunca afirmar con certeza absoluta. Usar escalas como “alta probabilidad”, “indicios consistentes con”, “no se puede descartar”.
Conocer las limitaciones del idioma: La mayoría de herramientas están optimizadas para inglés. Ajustar las expectativas y comunicar esta limitación al tribunal.
Verificar el contenido, no solo la forma: Las alucinaciones, citas falsas y datos inventados son indicadores independientes y muy valiosos que complementan el análisis estadístico.
Mantener la cadena de custodia: Aplicar los mismos estándares que para cualquier evidencia digital. Hash, copias forenses, documentación cronológica.
Actualizar conocimientos trimestralmente: Los modelos de IA evolucionan rápidamente. Lo que funcionaba hace 6 meses puede no funcionar hoy.
Ser imparcial: El perito debe ser objetivo. Si el análisis no es concluyente, debe decirlo claramente. Forzar una conclusión es peor que reconocer incertidumbre.
Kit de herramientas recomendado
KIT FORENSE LLM — PERITO INFORMÁTICO
HARDWARE
--------
- Estación de trabajo aislada (sin conexión a internet para análisis)
- Conexión a internet separada para herramientas cloud
- Dispositivo de almacenamiento forense (write-blocker)
SOFTWARE — DETECCIÓN
--------------------
- GPTZero (cuenta profesional con API)
- Originality.ai (cuenta con créditos)
- Copyleaks (alternativa)
- Binoculars (open source, local)
- GLTR (visualización de probabilidades)
SOFTWARE — METADATOS
--------------------
- ExifTool (metadatos de archivos)
- Apache Tika (extracción de texto y metadatos)
- python-docx (análisis de documentos Word)
- pdfplumber (análisis de PDF)
SOFTWARE — ESTILOMETRÍA
-----------------------
- JGAAP (Java Graphical Authorship Attribution Program)
- Stylo (paquete R de estilometría)
- spaCy + NLTK (análisis lingüístico Python)
- Herramientas propias de perplejidad y burstiness
SOFTWARE — DOCUMENTACIÓN
------------------------
- FTK Imager (hashing y preservación)
- Greenshot / ShareX (capturas con timestamp)
- HashCalc / sha256sum (verificación de integridad)
- LaTeX / Word (generación de informes periciales)
FUENTES DE REFERENCIA
---------------------
- ACL Anthology (papers de NLP)
- ENFSI guidelines (estándares forenses europeos)
- AI Act (texto completo y guías de aplicación)
- Jurisprudencia actualizada (CENDOJ, Aranzadi)Glosario de términos relacionados
| Término | Definición breve |
|---|---|
| Perplejidad | Medida de cuán sorprendente es un texto para un modelo de lenguaje |
| Burstiness | Variabilidad en la longitud y complejidad de las oraciones |
| Entropía | Cantidad de información e imprevisibilidad del texto |
| Alucinación | Generación de información falsa pero plausible por un LLM |
| Watermarking | Marcas invisibles embebidas en texto generado por IA |
| Estilometría | Análisis estadístico del estilo de escritura para determinar autoría |
| Fine-tuning | Ajuste de un modelo preentrenado para una tarea o estilo específico |
| RLHF | Aprendizaje por refuerzo con retroalimentación humana |
| Temperature | Parámetro que controla la aleatoriedad en la generación de texto |
| Token | Unidad mínima de texto que procesa un LLM (subpalabra) |
| C2PA | Estándar de procedencia de contenido digital |
| SynthID | Sistema de watermarking de Google para contenido generado por IA |
Referencias y fuentes
Kirchenbauer, J. et al. (2023). “A Watermark for Large Language Models”. Proceedings of ICML 2023. Publicación seminal sobre watermarking de texto IA.
Mitchell, E. et al. (2023). “DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature”. Proceedings of ICML 2023. Método estadístico de detección sin clasificador.
Hans, A. et al. (2024). “Binoculars: Zero-Shot Detection of LLM-Generated Text”. arXiv:2401.12070. Herramienta open source de detección.
Reglamento (UE) 2024/1689 del Parlamento Europeo y del Consejo (AI Act). Obligaciones de transparencia para sistemas de IA generativa.
Instrucción 2/2026 del Consejo General del Poder Judicial. Directrices sobre uso de inteligencia artificial en la administración de justicia.
ENFSI (European Network of Forensic Science Institutes). “Best Practice Manual for Digital Evidence”. Estándares de preservación de evidencia digital.
Tian, E. (2023-2026). “GPTZero: Towards Reliable AI-Generated Text Detection”. Documentación técnica de GPTZero.
Liang, W. et al. (2024). “Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews”. arXiv:2403.07183.
Sadasivan, V. et al. (2023). “Can AI-Generated Text be Reliably Detected?”. arXiv:2303.11156. Análisis de limitaciones de detección.
Weber-Wulff, D. et al. (2023). “Testing of Detection Tools for AI-Generated Text”. International Journal for Educational Integrity, 19(26). Evaluación comparativa de herramientas.
Última actualización: 30 de marzo de 2026 Categoría: Análisis Forense Código: ANA-060
Preguntas Frecuentes
¿Se puede demostrar que un texto fue escrito por IA?
Sí, mediante análisis de perplejidad, burstiness y entropía, junto con herramientas especializadas como GPTZero u Originality.ai. Un perito informático puede elaborar un informe con metodología rigurosa que documente la probabilidad de autoría artificial.
¿Es admisible en un juicio un informe sobre detección de texto IA?
Sí, siempre que el perito aplique una metodología documentada y reconocida, explique las limitaciones de las herramientas utilizadas, y mantenga la cadena de custodia de la evidencia analizada. Los tribunales españoles valoran la transparencia metodológica.
¿Qué precisión tienen las herramientas de detección de texto IA?
Las mejores herramientas alcanzan un 85-98% de precisión en inglés, pero en español la tasa baja al 70-90%. Factores como la edición humana posterior, el modelo utilizado y la longitud del texto afectan significativamente a la fiabilidad.
¿Qué consecuencias legales tiene usar IA sin declararlo?
Depende del contexto. En el ámbito académico puede suponer expulsión; en procesos judiciales, mala fe procesal (art. 247 LEC); en contratos, posible nulidad por vicio del consentimiento; y con el AI Act, multas de hasta 35 millones de euros.
¿Necesitas un peritaje forense?
Si necesitas ayuda profesional con análisis forense digital, estoy aquí para ayudarte.
Solicitar Consulta Gratuita
