La posibilidad de que la inteligencia artificial (IA) reemplace a los jueces humanos es un tema que ha dejado de ser ciencia ficción para convertirse en una pregunta de investigación empírica. Mientras que figuras como el presidente del Tribunal Supremo de los Estados Unidos, John G. Roberts, Jr., predicen que los jueces humanos seguirán presentes por mucho tiempo, los avances en los modelos de lenguaje de gran tamaño (LLM) sugieren un cambio de paradigma.
En un reciente estudio de Eric A. Posner y Shivam Saran (Judge AI: A Case-Study of Large Language Models as Judges, marzo 2026), utilizan a GPT-4o para replicar un experimento judicial previo y evaluar si un algoritmo puede capturar la esencia de la toma de decisiones legales.
La investigación replica un estudio factorial anterior de Holger Spamann y Lars Klöhn (Justice is less blind, and less legalistic, than we thought: Evidence from an experiment with real judges) basado en un caso real del Tribunal Penal Internacional para la ex Yugoslavia. Se trata de un caso complejo, donde fue acusado Momčilo Perišić, en virtud del artículo 7 del Estatuto del Tribunal Internacional para la Ex Yugoslavia (TPIY), de «complicidad en la planificación, preparación o ejecución de crímenes» contra civiles musulmanes durante la guerra civil en Yugoslavia. En el caso real, la Sala de Primera Instancia declaró culpable a Perišić (caso n.º IT-04-81-T, 2011), mientras que la Sala de Apelaciones anuló su condena (caso n.º IT-04-81-T, 2013), dictaminando que la fiscalía no había demostrado que el apoyo de Perišić estuviera «específicamente dirigido» a las actividades delictivas del VRS, un requisito previsto en el artículo 7(1) del Estatuto.
El experimento se centró en la apelación con dos variables manipuladas:
- Precedente: La mitad de los sujetos recibió un precedente que obligaba a confirmar la condena; la otra mitad, uno que sugería su revocación.
- Simpatía: El acusado se presentaba como simpático (arrepentido y colaborador en la reconciliación) o no simpático (desafiante y sin remordimientos).
El objetivo era comparar el comportamiento de GPT-4o con los resultados previos obtenidos de 31 jueces federales estadounidenses y un grupo de estudiantes de derecho. Para aumentar la robustez estadística de la IA, se generaron 100 respuestas utilizando diferentes «semillas» aleatorias (random seeds).
Los hallazgos revelan que la IA es un juez competente que aplica el derecho con mayor precisión que los humanos, pero esto no necesariamente la hace «mejor» desde una perspectiva jurisprudencial.
GPT-4o demostró ser altamente formalista, siguiendo el precedente de manera consistente y descartando el factor de simpatía por ser legalmente irrelevante. A diferencia de los jueces humanos -quienes se vieron influenciados significativamente por la personalidad del acusado, confirmando más condenas para sujetos «no simpáticos»-, GPT-4o se mantuvo impasible ante estos rasgos.
Curiosamente, el comportamiento de GPT-4o se asemeja mucho más al de los estudiantes de derecho que al de los jueces profesionales. Ambos (IA y estudiantes) tienden a un enfoque mecánico y legalista, mientras que los jueces expertos aplican lo que se conoce como «realismo legal», permitiendo que factores extralegales (moralidad, política o empatía) influyan en el resultado.
Los investigadores intentaron, mediante diversas técnicas de prompt engineering, que la IA emulara el comportamiento de los jueces humanos.
Se le pidió adoptar posturas basadas en el famoso caso de los «Exploradores de Cavernas» de Lon Fuller (“The case of the Speluncean explorers”, Harvard Law Review, 62(4), 1949). Aunque GPT-4o pudo explicar las teorías (como el realismo o el positivismo), terminó aplicando siempre un resultado formalista en su decisión final.
Incluso cuando se le ordenó explícitamente considerar la simpatía del acusado, la IA a menudo descartaba estos rasgos en su razonamiento por considerarlos irrelevantes para la culpabilidad legal.
El único método que logró introducir una sensibilidad a la simpatía fue pedirle que actuara como un académico legal evaluando si la sentencia era «correcta», en lugar de actuar como un juez dictando sentencia.
El estudio plantea una pregunta para el Derecho: ¿es deseable un juez que ignore la moralidad y la política en favor de la regla pura?
Los LLM parecen haber absorbido la «historia oficial» del derecho (que los jueces son árbitros neutrales que solo aplican reglas) a partir de sus datos de entrenamiento, ignorando la realidad práctica del sistema judicial.
Así, un sistema judicial puramente algorítmico podría ser eficiente para casos de baja complejidad con reglas mecánicas, pero carecería de la capacidad humana para evitar resultados absurdos o impopulares mediante la interpretación basada en valores sociales.
GPT-4o demuestra ser un «jurista digital» competente, pero rígido. Su incapacidad para replicar el realismo de los jueces profesionales sugiere que, por ahora, la IA no está lista para el «prime time» de la justicia compleja. Sin embargo, su menor tasa de errores lógicos (0% de inconsistencias frente al 10% en jueces humanos) la posiciona como una herramienta de apoyo valiosa para la revisión de acciones administrativas o la resolución de disputas menores donde el consenso social apoya una aplicación mecánica de las normas.

Rafael es el responsable de Mirada 360 en América Latina, donde colabora con las firmas de abogados en estrategia, modelo de negocio y posicionamiento competitivo. El trabajo académico, como profesor e investigador durante más de 15 años, y su formación en derecho y en economía, lo llevó a interesarse por estudiar el mercado legal.