Alucinación de IA
Fenómeno por el cual un modelo de inteligencia artificial generativa produce información falsa, inventada o sin fundamento real, presentándola con la misma confianza y formato que la información veraz. En el ámbito legal y forense, las alucinaciones de IA plantean riesgos graves: sentencias inexistentes citadas en escritos judiciales, informes periciales con datos fabricados, y pruebas digitales generadas artificialmente.
¿Qué es una alucinación de IA?
Una alucinación de inteligencia artificial es un fenómeno en el que un modelo de IA generativa (como ChatGPT, Claude, Gemini, Llama o Mistral) produce información falsa, inventada o sin base factual, presentándola con la misma confianza y estructura formal que la información veraz. El término “alucinación” es una analogía con las alucinaciones humanas: el modelo “percibe” y comunica algo que no existe en la realidad.
Este fenómeno no es un error esporádico ni un fallo técnico puntual. Es una característica inherente al funcionamiento de los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés). Estos modelos no “saben” ni “verifican” hechos: generan secuencias de texto estadísticamente probables en función de los patrones aprendidos durante el entrenamiento. Cuando el modelo se enfrenta a una pregunta cuya respuesta no está bien representada en sus datos de entrenamiento, puede fabricar una respuesta plausible pero completamente ficticia.
Riesgo real para el ámbito jurídico
Las alucinaciones de IA han provocado sanciones judiciales reales: multas a abogados por presentar sentencias inexistentes, inadmisión de pruebas y daños reputacionales graves. En el ámbito forense, un informe pericial que incorpore datos alucinados por IA sin verificación puede ser impugnado, anulado y generar responsabilidad profesional para el perito.
Por qué las IA generativas alucinan
Para entender las alucinaciones, es necesario comprender cómo funcionan los LLM:
| Concepto | Explicación | Relación con alucinaciones |
|---|---|---|
| Predicción de tokens | Los LLM predicen la siguiente palabra (token) más probable dada una secuencia anterior | Si la secuencia más probable no es factualmente correcta, el modelo la genera igualmente |
| Datos de entrenamiento | El modelo aprende de billones de palabras de texto (internet, libros, artículos) | Si los datos contienen errores, el modelo los reproduce. Si falta información, la inventa. |
| Mecanismo de atención | Permite al modelo relacionar partes distantes del texto | Limitaciones en ventanas de contexto pueden causar pérdida de coherencia |
| Temperatura | Parámetro que controla la aleatoriedad de las respuestas | Temperaturas altas generan respuestas más creativas pero más propensas a alucinaciones |
| RLHF | Reinforcement Learning from Human Feedback — entrenamiento con feedback humano | Puede incentivar al modelo a “complacer” al usuario generando respuestas aparentemente útiles aunque incorrectas |
| Ausencia de grounding | Los LLM no tienen acceso en tiempo real a bases de datos verificadas | No pueden verificar si una sentencia existe, si un dato es correcto o si una cita es real |
Analogía técnica:
Pregunta: "¿Cuál es la sentencia del Tribunal Supremo sobre
phishing bancario de 2024?"
Proceso interno del LLM:
1. "Tribunal Supremo" → Contexto judicial español [correcto]
2. "phishing bancario" → Estafas por internet [correcto]
3. "sentencia 2024" → Buscar patrón en datos de entrenamiento
4. Si no encuentra sentencia real → Genera una plausible:
"La STS 487/2024 de 15 de mayo establece que..."
↑ Número plausible, fecha plausible, contenido plausible
↑ PERO LA SENTENCIA NO EXISTETipos de alucinaciones
| Tipo | Descripción | Ejemplo | Riesgo jurídico |
|---|---|---|---|
| Factual | Datos, cifras o hechos inventados | ”España tuvo 47.000 ciberdelitos en Q1 2025” (dato inventado) | Informe pericial con estadísticas falsas |
| De citas | Referencias bibliográficas inexistentes | ”Según García-López (2023), Ciberseguridad Forense, ed. Aranzadi” (libro que no existe) | Bibliografía falsa en informes o escritos |
| Legal | Sentencias, artículos de ley o jurisprudencia inexistente | ”La STS 487/2024 de 15 de mayo…” (sentencia inventada) | Escritos judiciales con jurisprudencia falsa |
| De código | Funciones, APIs o librerías que no existen | ”Usar la función forensic_hash() de la librería pyforensics” (no existe) | Herramientas forenses citadas incorrectamente |
| De identidad | Expertos, instituciones u organizaciones inventadas | ”El Dr. Antonio Rodríguez, catedrático de Ciberderecho de la UCM” (persona inventada) | Citar expertos ficticios como autoridad |
| Narrativa | Historias coherentes pero completamente ficticias | Descripción detallada de un caso judicial que nunca existió | Casos precedentes falsos |
| Temporal | Eventos asignados a fechas incorrectas | ”El RGPD entró en vigor el 15 de marzo de 2018” (fue el 25 de mayo) | Cronologías incorrectas en informes |
| Mixta | Combinación de hechos reales con detalles inventados | Sentencia real con ratio decidendi alterado | La más peligrosa: difícil de detectar |
La alucinación mixta es la más peligrosa
Las alucinaciones mixtas combinan elementos verificables (un tribunal real, una fecha plausible, un tema jurídico existente) con detalles fabricados (el número de sentencia, el contenido del fallo, la ratio decidendi). Son extremadamente difíciles de detectar sin verificación exhaustiva, porque el contexto correcto genera una falsa sensación de credibilidad.
Impacto en procedimientos judiciales
Casos internacionales de alucinaciones legales
Mata v Avianca (EE. UU., 2023)
El caso que puso las alucinaciones de IA en el centro del debate jurídico mundial:
| Dato | Detalle |
|---|---|
| Tribunal | Tribunal del Distrito Sur de Nueva York |
| Caso | Roberto Mata v. Avianca, Inc. (22-cv-1461) |
| Fecha | Junio 2023 |
| Abogado | Steven Schwartz (Levidow, Levidow & Oberman) |
| Qué ocurrió | Schwartz usó ChatGPT para investigar jurisprudencia y presentó un escrito con 6 sentencias citadas como precedentes |
| El problema | Las 6 sentencias eran completamente inventadas por ChatGPT |
| Sentencias falsas | Varghese v. China Southern Airlines, Shaboon v. Egyptair, Petersen v. Iran Air, Martinez v. Delta Airlines, Estate of Durden v. KLM, Miller v. United Airlines |
| Descubrimiento | El juez Kevin Castel pidió copias de las sentencias; no existían en ninguna base de datos |
| Sanción | Multa de 5.000 dólares al abogado y al bufete |
| Declaración del juez | ”Este es un caso sin precedentes… el tribunal está preocupado por la citación de sentencias judiciales inexistentes” |
Lecciones del caso Mata v Avianca:
ChatGPT no es una base de datos jurídica: Los LLM no tienen acceso a repositorios jurídicos verificados. Generan texto que “suena como” jurisprudencia pero puede no serlo.
La responsabilidad es del profesional: El tribunal dejó claro que la responsabilidad de verificar la autenticidad de las citas recae enteramente en el abogado, independientemente de la herramienta utilizada.
Verificar siempre en fuentes primarias: Toda sentencia citada debe verificarse en la base de datos oficial del tribunal correspondiente (en España: CENDOJ).
Declarar el uso de IA: Algunos tribunales ya exigen que los abogados declaren si han utilizado IA generativa en la preparación de sus escritos.
Otros casos internacionales
| Caso | País | Año | Qué ocurrió |
|---|---|---|---|
| Park v. Kim | Canadá | 2024 | Abogado citó jurisprudencia falsa generada por IA. Sanción de 2.500 CAD. |
| Ex parte Lee | EE. UU. (Texas) | 2023 | Abogado presentó moción con citas inventadas por ChatGPT. Amonestación formal. |
| Harber v. DJO | EE. UU. (Colorado) | 2024 | Juez descubrió 3 citas falsas en un escrito. Sanción de 10.000 USD. |
| Caso del Tribunal de Bogotá | Colombia | 2023 | Juez usó ChatGPT para fundamentar sentencia. Debate sobre validez del fallo. |
| R v. Zagorski | Reino Unido | 2024 | Abogado defensor presentó jurisprudencia inexistente. Revisión disciplinaria. |
Casos en España
Resolución del TSJN sobre mala fe procesal
| Dato | Detalle |
|---|---|
| Tribunal | Tribunal Superior de Justicia de Navarra |
| Fecha | 2025 |
| Qué ocurrió | Un abogado presentó un escrito de oposición citando varias sentencias del Tribunal Supremo |
| El problema | Varias de las sentencias citadas no existían en la base de datos CENDOJ |
| Indicios de IA | Formato de cita consistente con output de ChatGPT, números de sentencia con patrones plausibles pero no reales |
| Resolución | El tribunal apreció mala fe procesal (art. 247 LEC) e impuso sanción |
| Impacto | Primera resolución relevante en España sobre uso de IA en escritos judiciales |
Otros indicios en la práctica española
| Situación | Contexto | Estado |
|---|---|---|
| Informes periciales con datos sospechosos | Peritos que presentan estadísticas inverificables sobre ciberdelincuencia | Varios casos en investigación |
| Demandas con doctrina inventada | Escritos que citan “doctrina mayoritaria” con autores inexistentes | Detectados por jueces en audiencias previas |
| Traducciones judiciales incorrectas | Uso de IA para traducir documentos con errores jurídicos graves | Varios incidentes documentados |
La Instrucción CGPJ 2/2026
El Consejo General del Poder Judicial publicó la Instrucción 2/2026 que establece directrices sobre el uso de herramientas de inteligencia artificial en el ámbito judicial. Entre sus puntos clave: la obligación de verificar toda información generada por IA antes de incorporarla a resoluciones o escritos, la prohibición de delegar decisiones judiciales a sistemas de IA, y la necesidad de transparencia sobre el uso de estas herramientas.
Detección de alucinaciones de IA
Métodos de detección
| Método | Descripción | Eficacia | Limitaciones |
|---|---|---|---|
| Verificación factual manual | Comprobar cada afirmación en fuentes primarias | Muy alta | Lento, requiere conocimiento del área |
| Herramientas de detección de IA | Software que analiza patrones estadísticos del texto | Media-alta | Falsos positivos, evolución de modelos |
| Análisis de perplejidad | Medir la “predecibilidad” estadística del texto | Media | No distingue IA de texto formulario |
| Análisis de burstiness | Medir variabilidad en la complejidad de las frases | Media | Los humanos también pueden escribir uniformemente |
| Verificación de citas | Comprobar que las fuentes citadas existen realmente | Muy alta para alucinaciones de citas | Solo detecta alucinaciones de citas |
| Análisis de metadatos | Examinar metadatos del documento (autor, software, fecha) | Variable | Fácil de falsificar metadatos |
| Análisis estilométrico | Comparar estilo con escritos previos del supuesto autor | Alta | Requiere corpus de comparación |
| Watermarking | Marcas invisibles insertadas por el modelo de IA | Alta (cuando disponible) | Solo funciona con modelos que lo implementan |
Herramientas de detección
| Herramienta | Desarrollador | Tecnología | Precisión reportada | Idioma español |
|---|---|---|---|---|
| GPTZero | GPTZero, Inc. | Análisis de perplejidad + burstiness | 85-95% (inglés) | Sí (menor precisión) |
| Originality.ai | Originality.ai | ML + fingerprinting | 90-96% (inglés) | Sí (menor precisión) |
| Copyleaks | Copyleaks, Ltd. | ML multimodelo | 85-93% (inglés) | Sí |
| Turnitin AI Detection | Turnitin | Integrado en plataforma anti-plagio | 90-98% (inglés) | Sí (en desarrollo) |
| Sapling AI Detector | Sapling | ML basado en transformers | 80-90% | Limitado |
| Content at Scale | Content at Scale | NLP + ML | 85-92% | Limitado |
| ZeroGPT | ZeroGPT | Análisis multiparámetro | 80-90% | Sí |
| GLTR | Harvard/MIT | Análisis de probabilidad de tokens | 75-85% | No optimizado |
Limitaciones de las herramientas de detección
| Limitación | Impacto | Implicación forense |
|---|---|---|
| Falsos positivos | Texto humano clasificado como IA (5-15%) | No se puede afirmar categóricamente que un texto es de IA |
| Sensibilidad al idioma | Menor rendimiento en español vs. inglés | Resultados menos fiables para textos en español |
| Texto editado | Si un humano edita el output de IA, la detección baja drásticamente | Textos mixtos (IA + humano) son difíciles de clasificar |
| Evolución de modelos | Cada nuevo modelo de IA elude detectores anteriores | Las herramientas quedan obsoletas rápidamente |
| Longitud del texto | Textos cortos (menos de 250 palabras) son difíciles de clasificar | FAQs, resúmenes y extractos pueden no ser analizables |
| Estilo formulario | Textos técnicos, legales o científicos tienen estructura similar a IA | Alto riesgo de falsos positivos en textos jurídicos |
| Parafraseo | Herramientas de parafraseo pueden eludir la detección | Atacantes pueden usar parafraseadores automáticos |
Ninguna herramienta es prueba definitiva
Los detectores de IA proporcionan indicios probabilísticos, no pruebas definitivas. Un perito informático forense debe usar múltiples herramientas, complementar con verificación factual, y expresar sus conclusiones en términos de probabilidad (“es consistente con generación por IA” o “presenta características compatibles con texto generado artificialmente”), nunca con certeza absoluta.
Análisis forense de contenido generado por IA
Cuando se sospecha que un documento, escrito judicial, informe pericial o prueba digital ha sido generado total o parcialmente por IA, el perito informático forense puede realizar un análisis sistemático.
Metodología de análisis forense
Preservación del documento: Obtener el documento original en formato nativo (Word, PDF, etc.) con metadatos intactos. Calcular hash SHA-256 inmediatamente. Documentar la cadena de custodia.
Análisis de metadatos: Examinar los metadatos del documento buscando: software de creación, fecha y hora de creación vs. modificación, autor registrado, historial de revisiones, comentarios ocultos. Herramientas: ExifTool, FOCA, Document Metadata Cleaner.
Análisis con herramientas de detección: Ejecutar el texto a través de múltiples herramientas de detección de IA (GPTZero, Originality.ai, Copyleaks, ZeroGPT). Documentar los resultados de cada herramienta con capturas de pantalla y hashes.
Verificación factual exhaustiva: Comprobar cada afirmación verificable del texto contra fuentes primarias. Para sentencias: buscar en CENDOJ. Para estadísticas: verificar en la fuente original citada. Para citas bibliográficas: comprobar en catálogos bibliotecarios.
Análisis estilométrico: Si se dispone de textos anteriores del supuesto autor, comparar el estilo de escritura: vocabulario, longitud de frases, uso de conectores, estructura argumentativa. Las diferencias significativas pueden indicar que no es el autor habitual.
Análisis de coherencia interna: Buscar contradicciones, inconsistencias o errores que son típicos de alucinaciones: datos que no cuadran entre secciones, nombres que cambian, fechas inconsistentes, niveles de detalle desiguales.
Análisis de patrones lingüísticos de IA: Los LLM tienen patrones reconocibles: uso frecuente de “es importante destacar que”, “cabe señalar que”, “en este sentido”, listas exhaustivas, estructura extremadamente organizada, ausencia de coloquialismos o marcas de estilo personal.
Prueba de reproducibilidad: Si se sospecha que el texto fue generado por un LLM específico, intentar reproducir un texto similar con el mismo prompt. La similitud estructural (no textual) puede ser un indicio adicional.
Elaboración del informe pericial: Documentar todos los hallazgos, expresar conclusiones en términos probabilísticos, y adjuntar las evidencias con sus hashes. El informe debe distinguir claramente entre indicios y certezas.
Indicadores de texto generado por IA
| Indicador | Descripción | Peso probatorio |
|---|---|---|
| Uniformidad estilística excesiva | Todas las frases tienen longitud y complejidad similar | Medio |
| Ausencia de errores | Texto largo sin erratas, faltas o imprecisiones estilísticas | Bajo (un autor puede ser meticuloso) |
| Estructura perfecta | Organización impecable con transiciones fluidas | Bajo-medio |
| Expresiones recurrentes de IA | ”Es importante destacar”, “En este contexto”, “Cabe mencionar” | Medio-alto |
| Citas inverificables | Referencias que no existen en bases de datos | Muy alto (para alucinaciones de citas) |
| Datos estadísticos sin fuente verificable | Cifras precisas sin fuente comprobable | Alto |
| Exceso de matizaciones | ”Sin embargo”, “no obstante”, “por otro lado” en cada párrafo | Medio |
| Conocimiento anacrónico | Información precisa hasta una fecha y errores después (fecha de corte del modelo) | Alto |
| Respuestas demasiado completas | Cobertura exhaustiva de todos los aspectos de un tema | Medio |
| Ausencia de opiniones personales | Texto descriptivo sin posicionamiento del supuesto autor | Medio |
Análisis de metadatos como evidencia
| Metadato | Qué revela | Herramienta |
|---|---|---|
| Autor del documento | Si coincide con el supuesto redactor | ExifTool, propiedades del archivo |
| Software de creación | Word, LibreOffice, Google Docs, o un editor de texto plano | ExifTool, FOCA |
| Fecha de creación | Si es coherente con el plazo de elaboración | ExifTool |
| Historial de revisiones | Si hay múltiples versiones o fue creado de una sola vez | Word (track changes), Google Docs (historial) |
| Tiempo de edición | Minutos totales de edición del documento | Word (propiedades avanzadas) |
| Plantilla utilizada | Si usa plantilla estándar de un generador de IA | Análisis del código XML del documento |
| Comentarios ocultos | Notas del proceso de redacción | Análisis del documento en formato XML |
Ejemplo de análisis de metadatos sospechoso:
Documento: escrito-oposicion.docx
Autor: "Abogado X"
Software: Microsoft Word 365
Fecha creación: 15/03/2026 09:12:00
Fecha modificación: 15/03/2026 09:14:32
Tiempo de edición: 3 minutos ← SOSPECHOSO
Páginas: 28 ← 28 páginas en 3 minutos
Palabras: 12.847 ← Imposible escribir en 3 minutos
Revisiones: 1 ← Sin historial de edición
Conclusión: El documento fue pegado en Word desde otra fuente
(posiblemente un generador de IA) en un único bloque de texto.El tiempo de edición como indicio clave
Uno de los indicios más reveladores es la relación entre el tiempo de edición registrado en los metadatos del documento y su extensión. Un escrito de 30 páginas con un tiempo de edición de 5 minutos no fue redactado en Word: fue generado en otra herramienta y pegado. Este dato, combinado con otros indicios, puede ser determinante en el análisis forense.
Riesgos específicos para el ámbito forense
Informes periciales con contenido alucinado
El uso de IA generativa para elaborar informes periciales plantea riesgos específicos:
| Riesgo | Ejemplo | Consecuencia |
|---|---|---|
| Estadísticas falsas | ”Según el INE, el 78% de los ciberdelitos en España…” (dato inventado) | Informe impugnable, pérdida de credibilidad del perito |
| Herramientas inexistentes | ”Se utilizó la herramienta ForensicAnalyzer Pro v4.2” (no existe) | Cuestionamiento de toda la metodología |
| Normas técnicas mal citadas | ”Según la ISO 27037:2012, apartado 8.3.4…” (apartado que no existe) | Informe no conforme con normativa real |
| Casos precedentes falsos | ”En el caso peritado por el Dr. Fernández (2023)…” (caso inventado) | Pérdida total de credibilidad |
| Descripciones técnicas incorrectas | Explicaciones de procesos forenses con pasos inventados | Metodología impugnable |
Pruebas digitales generadas por IA
| Tipo de prueba | Riesgo de IA | Detección forense |
|---|---|---|
| Capturas de pantalla | IA puede generar capturas realistas de conversaciones, emails o webs | Análisis de píxeles, metadatos EXIF, consistencia de renderizado |
| Conversaciones de WhatsApp | IA puede generar hilos completos de chat | Verificación con la base de datos del dispositivo, análisis de timestamps |
| Emails | IA puede generar emails completos con cabeceras plausibles | Verificación de cabeceras reales, SPF/DKIM/DMARC, logs del servidor |
| Documentos | IA puede generar contratos, facturas, escritos | Análisis de metadatos, tipografía, consistencia con plantillas reales |
| Audio/vídeo | Deepfakes de voz y vídeo generados por IA | Análisis espectral, detección de artefactos, inconsistencias temporales |
| Código fuente | IA puede generar código que “parece” pertenecer a un proyecto | Análisis de estilo, comparación con repositorio real, historial de commits |
Integridad de la evidencia digital en la era de la IA
La existencia de IA generativa capaz de crear contenido indistinguible de la realidad plantea un desafío fundamental para la evidencia digital:
| Desafío | Descripción | Respuesta forense |
|---|---|---|
| Duda razonable generalizada | ”Cualquier prueba digital podría ser generada por IA” | Cadena de custodia robusta, hash desde el momento de adquisición |
| Impugnación de pruebas legítimas | Parte contraria alega que una prueba real fue generada por IA | Análisis forense que demuestre autenticidad (metadatos, logs, correlación) |
| Fabricación de pruebas | Uso de IA para crear pruebas falsas convincentes | Análisis de artefactos de IA, verificación cruzada con fuentes independientes |
| Manipulación parcial | Modificación con IA de pruebas reales (ej: alterar fecha de un email) | Análisis de integridad, comparación con copias del servidor |
Marco legal y regulatorio
Regulación de la IA en España y Europa
| Norma | Estado (2026) | Relevancia para alucinaciones |
|---|---|---|
| AI Act (Reglamento UE 2024/1689) | En vigor (aplicación progresiva) | Clasifica sistemas de IA por riesgo. Los sistemas de IA en el ámbito judicial son de “alto riesgo”. |
| Instrucción CGPJ 2/2026 | En vigor | Directrices sobre uso de IA en el ámbito judicial español. Obligación de verificación. |
| RGPD | En vigor | Derecho a no ser sometido a decisiones automatizadas (art. 22). |
| Ley Orgánica 3/2018 (LOPD-GDD) | En vigor | Complementa RGPD en España. |
| Código Deontológico de la Abogacía | En vigor | Obligación de diligencia y veracidad en escritos judiciales. |
| LEC art. 247 | En vigor | Sanciones por mala fe procesal y actuaciones contrarias a la buena fe. |
AI Act y sistemas de alto riesgo
El Reglamento Europeo de Inteligencia Artificial (AI Act) clasifica como sistemas de alto riesgo aquellos utilizados en:
| Ámbito | Ejemplos | Obligaciones |
|---|---|---|
| Administración de justicia | Sistemas de apoyo a la decisión judicial | Supervisión humana obligatoria, transparencia, trazabilidad |
| Fuerzas de seguridad | Sistemas de investigación policial, reconocimiento facial | Evaluación de impacto, registro de actividad |
| Migración y asilo | Análisis automatizado de solicitudes | No discriminación, explicabilidad |
| Empleo | Sistemas de selección de personal | Auditoría de sesgos, transparencia |
Responsabilidad profesional
| Profesional | Obligación | Consecuencia de usar IA sin verificar |
|---|---|---|
| Abogado | Veracidad de citas y argumentos (art. 247 LEC) | Sanción por mala fe procesal (180-6.000€), responsabilidad disciplinaria |
| Perito informático | Exactitud técnica del informe pericial | Impugnación del informe, exclusión como perito, responsabilidad civil |
| Procurador | Verificación de la documentación presentada | Responsabilidad solidaria con el abogado |
| Juez/magistrado | Fundamentación correcta de resoluciones | Nulidad de la resolución, expediente disciplinario |
| Fiscal | Exactitud de los hechos y fundamentos jurídicos | Responsabilidad disciplinaria |
El perito como guardián de la veracidad
En un mundo donde la IA puede generar contenido indistinguible de la realidad, el papel del perito informático forense como verificador de autenticidad es más relevante que nunca. El perito puede analizar si un texto, imagen, audio o vídeo fue generado por IA, si unas pruebas digitales son auténticas, o si un informe contiene datos fabricados.
Cómo prevenir alucinaciones en el uso profesional de IA
Para abogados y profesionales jurídicos
| Práctica | Descripción |
|---|---|
| Verificar SIEMPRE | Toda sentencia, artículo de ley o dato citado por la IA debe verificarse en la fuente primaria (CENDOJ, BOE, bases de datos oficiales) |
| No copiar directamente | Usar la IA como punto de partida para investigación, nunca como fuente final |
| Pedir referencias reales | Solicitar a la IA que indique las fuentes de sus afirmaciones y verificarlas |
| Contrastar con bases de datos jurídicas | Aranzadi, La Ley, vLex — las bases de datos jurídicas profesionales no alucinan |
| Documentar el uso de IA | Registrar internamente cuándo y cómo se utilizó IA en la preparación de escritos |
| Formación continua | Entender las limitaciones de la IA para no sobrevalorar sus capacidades |
Para peritos informáticos
| Práctica | Descripción |
|---|---|
| Verificar datos y estadísticas | Toda cifra incluida en el informe debe tener una fuente verificable |
| Comprobar herramientas citadas | Verificar que las herramientas forenses mencionadas existen realmente y funcionan como se describe |
| Validar normas técnicas | Confirmar que las ISO, RFC o estándares citados existen y dicen lo que se afirma |
| No inventar casos | No incluir “casos similares” sin verificar que existieron |
| Citar fuentes primarias | Siempre que sea posible, citar la fuente original, no lo que la IA dice que dice la fuente |
| Revisión por pares | Antes de entregar un informe pericial, someterlo a revisión de otro profesional |
Técnicas de prompting para reducir alucinaciones
| Técnica | Ejemplo de prompt | Efecto |
|---|---|---|
| Pedir solo hechos verificables | ”Lista solo sentencias que puedas verificar con número real” | Reduce (no elimina) alucinaciones factuales |
| Solicitar incertidumbre | ”Si no estás seguro de un dato, indícalo explícitamente” | El modelo indica “no puedo verificar…” |
| Grounding con documentos | Proporcionar el texto legal real y pedir análisis sobre él | La IA trabaja sobre datos proporcionados, no inventados |
| Chain of thought | ”Explica paso a paso tu razonamiento antes de dar la respuesta” | Reduce errores en razonamiento complejo |
| Temperatura baja | Configurar temperatura a 0.0-0.3 | Respuestas más conservadoras y menos creativas |
| RAG (Retrieval Augmented Generation) | Conectar la IA a una base de datos verificada | Las respuestas se basan en datos reales recuperados |
Alucinaciones de IA y deepfakes: convergencia de riesgos
La amenaza combinada
Las alucinaciones de texto y los deepfakes de imagen, audio y vídeo representan dos manifestaciones del mismo problema fundamental: la IA generativa puede crear contenido falso indistinguible del real.
| Tipo de contenido | Alucinación de IA | Deepfake | Convergencia |
|---|---|---|---|
| Texto | Sentencias falsas, datos inventados | — | Informes periciales con análisis de pruebas deepfake alucinados |
| Imagen | Descripciones de imágenes inexistentes | Fotos generadas por IA | IA describe una foto deepfake como “real” |
| Audio | Transcripciones de conversaciones inventadas | Clonación de voz | Transcripción alucinada de un audio deepfake |
| Vídeo | Descripciones de vídeos inexistentes | Vídeos generados por IA | Análisis alucinado de un vídeo deepfake |
| Documentos | Datos y citas falsos | Documentos visualmente falsificados | Documento deepfake validado por análisis alucinado |
Impacto en la cadena de evidencias
ESCENARIO DE RIESGO MÁXIMO:
1. Atacante genera un deepfake de vídeo (prueba falsa)
2. Abogado usa IA para analizar la "prueba"
3. La IA alucina un análisis que "confirma" la autenticidad
4. Se presenta al tribunal como prueba con "análisis técnico"
Resultado: Prueba falsa + análisis falso = doble engaño
ESCENARIO CORRECTO:
1. Se presenta la prueba (potencialmente deepfake)
2. Perito humano analiza con herramientas forenses verificadas
3. El perito detecta artefactos de generación por IA
4. Informe pericial documenta los hallazgos con evidencias
Resultado: El perito humano es la barrera contra ambos riesgosEl futuro de las alucinaciones de IA
Tendencias tecnológicas (2026-2028)
| Tendencia | Descripción | Impacto en alucinaciones |
|---|---|---|
| RAG mejorado | Modelos con acceso en tiempo real a bases de datos verificadas | Reduce alucinaciones factuales, no las elimina |
| Modelos con citación | IA que vincula cada afirmación a una fuente verificable | Facilita la verificación, pero las fuentes pueden ser mal interpretadas |
| Watermarking obligatorio | Legislación que exija marcar el contenido generado por IA | Permite identificar texto de IA pero es eludible |
| Modelos más pequeños y especializados | LLMs entrenados específicamente en un dominio (derecho, medicina) | Menos alucinaciones en su dominio, más en otros |
| Detección multimodal | Herramientas que analizan texto + metadatos + estilo simultáneamente | Mejor detección de contenido de IA |
| Estándares de transparencia | AI Act exigirá trazabilidad de sistemas de alto riesgo | Mayor responsabilidad de proveedores de IA |
Implicaciones para el sistema judicial
| Escenario futuro | Probabilidad | Preparación necesaria |
|---|---|---|
| Obligación de declarar uso de IA | Muy alta | Formularios de declaración en escritos judiciales |
| Verificación automática de citas | Alta | Integración de CENDOJ con herramientas de verificación |
| Peritos especializados en IA | Alta | Formación de peritos en análisis de contenido generado |
| Presunción de autenticidad debilitada | Media | Nuevas reglas probatorias para evidencia digital |
| IA como herramienta oficial del tribunal | Media | Protocolos de uso con verificación humana obligatoria |
El perito informático como garantía de autenticidad
En la era de la IA generativa, el perito informático forense se convierte en un garante de autenticidad: puede verificar si un texto fue generado por IA, si una prueba digital es auténtica, si una imagen o vídeo es un deepfake, y si un informe contiene datos fabricados. Esta función es cada vez más demandada por tribunales, abogados y empresas.
Guía práctica: verificación de jurisprudencia en España
Para cualquier profesional jurídico que utilice IA como herramienta de investigación, es fundamental verificar toda la jurisprudencia citada. Esta guía proporciona un proceso sistemático.
Proceso de verificación
Identificar la cita: Anotar el número de sentencia, tribunal, fecha y sala que la IA proporciona. Ejemplo: “STS 487/2024 de 15 de mayo, Sala 1ª”.
Buscar en CENDOJ: Acceder a la base de datos del CENDOJ (poderjudicial.es/search) e introducir los datos de la sentencia. Si no aparece, es probablemente una alucinación.
Verificar en bases de datos jurídicas: Si no se encuentra en CENDOJ, buscar en Aranzadi (Westlaw), La Ley (Wolters Kluwer) o vLex. Estas bases de datos son más completas.
Comprobar la ratio decidendi: Si la sentencia existe, verificar que el contenido que la IA atribuye a la sentencia (ratio decidendi, obiter dicta, fallo) coincide con el texto real.
Verificar vigencia: Comprobar que la sentencia no ha sido anulada, modificada o superada por jurisprudencia posterior.
Documentar la verificación: Registrar el resultado de la verificación para cada cita, con fecha de consulta y base de datos utilizada.
Señales de alerta en jurisprudencia generada por IA
| Señal | Ejemplo | Qué hacer |
|---|---|---|
| Número de sentencia muy redondo | ”STS 500/2024” | Verificar en CENDOJ |
| Fecha demasiado conveniente | La sentencia es exactamente del tema preguntado | Verificar existencia |
| Ponente desconocido | Nombre de magistrado que no existe en la Sala | Verificar en la composición del tribunal |
| Ratio decidendi perfecta | La sentencia dice exactamente lo que el abogado necesita | Verificar el texto real |
| Sala incorrecta | Sala Penal resolviendo tema civil | Error de IA en la asignación de sala |
| Múltiples sentencias en la misma dirección | La IA proporciona 5 sentencias que apoyan exactamente la misma tesis | Probable fabricación en serie |
| Ausencia de jurisprudencia contraria | La IA no menciona sentencias en contra | Sesgo de confirmación algorítmico |
Estadísticas sobre alucinaciones de IA
Tasas de alucinación por modelo y tipo
| Modelo | Alucinaciones factuales | Alucinaciones de citas | Alucinaciones legales | Fuente del dato |
|---|---|---|---|---|
| GPT-4o | 3-8% | 15-25% | 20-35% | Stanford HAI, 2025 |
| GPT-3.5 | 10-20% | 30-50% | 40-60% | OpenAI Research, 2024 |
| Claude 3.5 Sonnet | 2-6% | 10-20% | 15-30% | Anthropic, 2025 |
| Gemini Pro | 4-10% | 18-28% | 22-38% | Google DeepMind, 2025 |
| Llama 3 | 5-12% | 20-35% | 25-40% | Meta AI, 2025 |
| Mistral Large | 4-9% | 15-25% | 18-32% | Mistral AI, 2025 |
Nota importante: Estas tasas varían significativamente según el idioma (mayor tasa de alucinaciones en español que en inglés), el dominio (mayor en derecho que en ciencias exactas) y la complejidad de la pregunta.
Impacto económico y legal
| Métrica | Dato | Fuente |
|---|---|---|
| Casos judiciales afectados (global, 2023-2025) | 120+ documentados | Legal AI Observatory |
| Sanciones impuestas a abogados | 35+ casos | Varios tribunales |
| Coste medio de sanción por jurisprudencia falsa | 3.500€ - 10.000€ | Jurisprudencia comparada |
| Empresas afectadas por informes con datos alucinados | No cuantificado | — |
| Tiempo medio de verificación de jurisprudencia | 15-30 min por sentencia | Estimación profesional |
Conclusión
Las alucinaciones de inteligencia artificial representan uno de los riesgos más significativos de la integración de IA generativa en el ámbito jurídico y forense. No son errores esporádicos sino una característica inherente al funcionamiento de los modelos de lenguaje, que generan texto estadísticamente plausible sin verificar su veracidad.
Los casos de Mata v Avianca, las resoluciones del TSJN y la creciente regulación europea (AI Act, Instrucción CGPJ 2/2026) demuestran que este riesgo es real y tiene consecuencias tangibles: sanciones económicas, inadmisión de pruebas, daño reputacional y, potencialmente, responsabilidad penal.
Para el perito informático forense, las alucinaciones de IA presentan una doble dimensión: por un lado, el riesgo de incorporar datos alucinados en sus propios informes; por otro, la oportunidad de ofrecer un servicio cada vez más demandado: la verificación de autenticidad de contenido potencialmente generado por IA. En un mundo donde la IA puede generar texto, imágenes, audio y vídeo indistinguibles de la realidad, el perito humano que verifica, analiza y certifica la autenticidad del contenido digital se convierte en un profesional imprescindible.
La prevención requiere una combinación de tecnología (herramientas de detección, RAG, watermarking) y disciplina profesional (verificación exhaustiva, uso de fuentes primarias, transparencia sobre el uso de IA). Ni la tecnología sola ni la voluntad humana sola son suficientes: la respuesta efectiva a las alucinaciones de IA exige ambas.
Referencias y fuentes
Mata v. Avianca, Inc., No. 22-cv-1461 (S.D.N.Y. 2023) — Resolución del juez Kevin Castel sobre citación de jurisprudencia inexistente generada por ChatGPT. Disponible en: PACER
Reglamento (UE) 2024/1689 (AI Act) — Reglamento Europeo de Inteligencia Artificial. Clasificación de sistemas de alto riesgo y obligaciones de transparencia. Disponible en: eur-lex.europa.eu
Stanford HAI — “Hallucination Rates in Large Language Models: A Comprehensive Study” (2025). Stanford Institute for Human-Centered Artificial Intelligence.
Consejo General del Poder Judicial — Instrucción 2/2026 sobre el uso de herramientas de inteligencia artificial en el ámbito judicial. Disponible en: poderjudicial.es
INCIBE — “Riesgos del uso de inteligencia artificial generativa” (2025). Instituto Nacional de Ciberseguridad de España. Disponible en: incibe.es
Ley 1/2000, de 7 de enero, de Enjuiciamiento Civil — Artículo 247 sobre buena fe procesal y sanciones.
GPTZero — Documentación técnica sobre detección de texto generado por IA. Disponible en: gptzero.me
Originality.ai — “AI Content Detection: Technical White Paper” (2025). Disponible en: originality.ai
Anthropic — “Reducing Sycophancy and Hallucination in Claude Models” (2025). Investigación sobre mitigación de alucinaciones. Disponible en: anthropic.com/research
OpenAI — “GPT-4 Technical Report” (2023). Sección sobre limitaciones y alucinaciones. Disponible en: openai.com/research
CENDOJ — Centro de Documentación Judicial. Base de datos de jurisprudencia del Consejo General del Poder Judicial. Disponible en: poderjudicial.es/search
Tribunal Superior de Justicia de Navarra — Resolución sobre mala fe procesal por uso de IA generativa sin verificación (2025). Disponible en CENDOJ.
ENISA — “AI and Cybersecurity: Challenges and Opportunities” (2025). European Union Agency for Cybersecurity. Disponible en: enisa.europa.eu
Ley Orgánica 10/1995, de 23 de noviembre, del Código Penal — Artículos aplicables a falsedad documental y fraude procesal.
Última actualización: 30 de marzo de 2026 Categoría: Técnico Código: TEC-060
Preguntas Frecuentes
¿Qué es una alucinación de IA?
Una alucinación de IA se produce cuando un modelo de inteligencia artificial generativa (como ChatGPT, Claude, Gemini o Llama) genera información que parece plausible pero es falsa o inventada. Puede fabricar citas de libros inexistentes, sentencias judiciales que nunca se dictaron, datos estadísticos sin base real o referencias académicas ficticias. El modelo presenta esta información con el mismo nivel de confianza que la información correcta.
¿Por qué las IA alucinan?
Las IA generativas predicen la siguiente palabra más probable en función de patrones estadísticos aprendidos durante el entrenamiento. No 'entienden' ni 'verifican' los hechos: generan texto plausible. Las causas principales son: datos de entrenamiento incompletos o erróneos, limitaciones del mecanismo de atención, parámetros de temperatura altos que favorecen respuestas creativas, y ausencia de acceso a bases de datos actualizadas.
¿Pueden las alucinaciones de IA afectar a un juicio?
Sí, y ya ha ocurrido. En el caso Mata v Avianca (2023), un abogado estadounidense presentó un escrito con 6 sentencias completamente inventadas por ChatGPT. En España, el TSJN sancionó a un abogado por mala fe procesal tras presentar jurisprudencia inexistente generada por IA. El riesgo afecta también a informes periciales, pruebas digitales y documentos probatorios elaborados con ayuda de IA.
¿Cómo se detecta si un texto ha sido generado por IA?
Existen varias aproximaciones: herramientas de detección como GPTZero, Originality.ai, Copyleaks y Turnitin que analizan patrones estadísticos del texto; análisis de perplejidad y burstiness (los textos de IA tienden a ser más uniformes); verificación factual de las afirmaciones (las fuentes citadas existen realmente); y análisis de metadatos del documento. Ninguna herramienta es 100% fiable.
¿Puede un perito informático demostrar que un texto fue generado por IA?
Un perito informático puede realizar un análisis forense del texto que incluya: análisis con múltiples herramientas de detección de IA, verificación de fuentes y citas, análisis de metadatos del documento (fecha de creación, software utilizado), análisis de consistencia estilística, y comparación con el estilo de escritura habitual del supuesto autor. El resultado se expresa en términos de probabilidad, no de certeza absoluta.
¿Es legal usar IA para redactar escritos judiciales en España?
No existe una prohibición legal explícita de usar IA como herramienta de apoyo en la redacción de escritos judiciales. Sin embargo, el abogado o procurador es responsable de la veracidad de todo lo que presenta ante el tribunal. Si la IA genera citas falsas o jurisprudencia inexistente, la responsabilidad recae plenamente sobre el profesional. La Instrucción CGPJ 2/2026 establece directrices sobre el uso de IA en el ámbito judicial.
¿Qué tipos de alucinaciones de IA existen?
Los principales tipos son: alucinaciones factuales (datos inventados presentados como hechos), alucinaciones de citas (referencias bibliográficas inexistentes), alucinaciones legales (sentencias o artículos de ley que no existen), alucinaciones de código (funciones o APIs inexistentes), alucinaciones de identidad (la IA inventa expertos o instituciones), y alucinaciones narrativas (historias coherentes pero completamente ficticias).
¿Qué pasó en el caso Mata v Avianca?
En junio de 2023, el abogado Steven Schwartz presentó ante el Tribunal del Distrito Sur de Nueva York un escrito con 6 sentencias citadas como precedentes. El juez descubrió que las 6 sentencias eran completamente inventadas por ChatGPT. El abogado fue sancionado con 5.000 dólares y el caso sentó un precedente mundial sobre los riesgos de usar IA sin verificación en procedimientos judiciales.
¿Las herramientas de detección de IA son fiables como prueba pericial?
Las herramientas de detección tienen limitaciones: tasas de falsos positivos del 5-15%, sensibilidad reducida con textos editados por humanos, resultados variables según el idioma (peor rendimiento en español que en inglés), y evolución constante de los modelos de IA que las hacen obsoletas rápidamente. Un perito debe usar múltiples herramientas, complementar con análisis factual, y expresar conclusiones en términos probabilísticos.
¿Qué consecuencias tiene presentar contenido alucinado por IA en un tribunal español?
Las consecuencias pueden incluir: sanción por mala fe procesal (art. 247 LEC) con multas de 180 a 6.000 euros, inadmisión de la prueba, responsabilidad disciplinaria del abogado ante el colegio profesional, posible responsabilidad penal si hay ánimo de engaño al tribunal, y daño reputacional significativo. El TSJN ya ha dictado resoluciones aplicando sanciones por esta causa.
¿Necesitas un peritaje forense?
Si necesitas ayuda profesional con análisis forense digital, estoy aquí para ayudarte.
Solicitar Consulta Gratuita
