Juni 2026. De AI Act is live. De high-risk verplichtingen gaan in augustus in. En er is één fundamenteel probleem waar niemand het over heeft: we kunnen niet meten of juridische AI-systemen doen wat de wet eist.

Michèle Finck, hoogleraar Law and AI aan de Universität Tübingen, publiceert een paper dat de vinger legt op een meetkloof die zowel methodologisch als juridisch is. LLMs produceren nu routinematig juridische tekst van mediane kwaliteit, elke academicus die take-home tentamens nakijkt weet dit. Maar geen enkele bestaande benchmark test of ze doctrinal legal reasoning doen: de kern van juridisch werk. En de EU AI Act maakt "appropriate accuracy" een bindende eis voor high-risk AI in het juridische domein. Een eis die niet geoperationaliseerd kan worden zonder precies de benchmark die niet bestaat.

De paper: een jurist die de AI-wereld een spiegel voorhoudt

Finck schrijft niet als computer scientist maar als jurist. Haar paper is een methodologisch-juridische analyse, geen technische benchmark-specificatie. Ze stelt twee diagnoses en één constructieve bijdrage:

Diagnose 1: We kunnen niet vertellen of een model doctrinally redeneert of slechts de oppervlakte van juridische taal reproduceert, omdat bestaande benchmarks paralegal taken testen (retrieval, classificatie, extractie, examenvragen) in plaats van doctrinal reasoning zelf.
Diagnose 2: De AI Act verplicht het creëren van doctrinal-reasoning benchmarks. Article 15(2) draagt de Commissie op "de ontwikkeling van benchmarks en meetmethodologieën aan te moedigen" voor accuracy. Article 15(3) eist dat accuracy-niveaus en metrics in de gebruiksaanwijzing staan. Beide zijn onvoorwaardelijke verplichtingen die nu niet uitvoerbaar zijn.
Constructieve bijdrage: Een taxonomy van 21 faalmodi die elke benchmark voor doctrinal reasoning in EU-recht zou moeten detecteren.

Wat is doctrinal legal reasoning?

Finck destilleert uit de methodologische literatuur vier structurele kenmerken. Dit is geen academische haarkloverij, dit zijn de criteria waarmee de juridische gemeenschap beoordeelt of een doctrinal argument competent is gemaakt:

Vier structurele kenmerken van doctrinal legal reasoning: Internalism, Normativity, Contestability, Coherence, en hoe EU-recht ze intensiveert

Internalism, redeneren vanuit het perspectief van een deelnemer in de rechtsorde, niet een externe observator. De startvraag is "wat is het recht?", niet "wat vinden mensen van het recht?"
Normativity, evaluatief oordeel over welke van meerdere interpretaties het beste past. Doctrinal reasoning is niet descriptief ("dit is wat de bronnen zeggen") maar prescriptief ("dit is wat het recht vereist"). Een LLM is een engine van descriptieve distributie, het sampelt uit de spreiding van lezingen gewogen naar prevalentie in trainingsdata. Maar in EU-recht is de dominante lezing niet daarom de correcte.
Contestability, een goed doctrinal argument produceert geen zekerheid maar een sterke verdedigbare positie die objecties anticipeert. Dit is geen defect van het systeem maar een structureel kenmerk: juridische regels hebben "open texture" (HLA Hart). Contestability moet onderscheiden worden van indeterminacy, juridische vragen zijn betwistbaar maar blijven rationeel traceerbaar.
Coherence, normen moeten "samenhangen" als een systematisch geheel. Coherence is niet slechts de afwezigheid van contradictie maar de positieve eigenschap dat proposities een begrijpelijk geheel vormen. Het is coherence die het beslissende werk doet in hard cases: waar twee lezingen elk consistent zijn met de lokale regel, kiest de doctrinal interpreter degene die beter past bij de principes van het rechtsgebied als geheel.

Waarom EU-recht het extra moeilijk maakt

In EU-recht zijn deze vier kenmerken niet alleen aanwezig maar geïntensiveerd:

Semantisch internalisme: EU-rechtelijke concepten hebben een autonome betekenis. Het begrip "werknemer" of "consument" in EU-recht is niet hetzelfde als in Nederlands, Duits of Frans recht. LLMs die getraind zijn op Engelstalige, US-jurisdictie corpora missen dit onderscheid fundamenteel.
Teleologische interpretatie: EU-recht is expliciet normatief. De interpretatieve methode is doelgericht, het betere argument richting de verdragsdoelstellingen wint, niet de statistisch meest frequente lezing.
24 authentieke taalversies: EU-recht is meertalig. Geen enkele taalversie mag als enige interpretatieve basis dienen. Waar taalversies divergeren, moet de rechter die divergenties in de redenering betrekken. Multilingualisme vermenigvuldigt verdedigbare lezingen.
Article 267 TFEU: De prejudiciële procedure institutionaliseert contestability. Zelfs de hoogste nationale rechters kunnen het oneens zijn over de interpretatie van EU-recht.
Coherence als constitutioneel vereiste: Elke bepaling moet "in haar context worden geplaatst en geïnterpreteerd in het licht van het EU-recht als geheel, rekening houdend met haar doelstellingen en staat van evolutie."

De 21 faalmodi, een taxonomy als bouwsteen

Finck levert geen benchmark maar wél wat een jurist verantwoord kan bijdragen aan een interdisciplinair project: een taxonomy van 21 faalmodi in vijf categorieën. Dit zijn fouten die competente juristen ook kunnen maken, ze markeren de grens tussen doctrinaire competentie en de afwezigheid ervan:

Categorie	#	Voorbeelden
A. Source Recognition & Authority	5	Hiërarchie van normen verwarren (soft law gelijkstellen aan Verdrag), lagen van normen niet onderscheiden (primair vs secundair recht), soft law als unitair geheel behandelen, rechterlijk gezag miswegen (Grand Chamber vs chamber vs AG Opinions), autonome EU-concepten negeren
B. Operative Doctrines	4	Direct effect/consistent interpretation fouten, procedurele context negeren (preliminary ruling ≠ infringement judgment), scope of application (wanneer is EU-recht van toepassing?), blindheid voor nationale implementatie van richtlijnen
C. Interpretive Method	4	Methode-selectie (letterlijk vs contextueel vs teleologisch), frequentie verwarren met correctheid (Dassonville→Keck), recitals misverstaan, multilingualisme negeren
D. Temporal & Contested Reasoning	4	Jurisprudentiële evolutie missen, temporele evolutie van juridische landschappen, contestatie niet signaleren (pending references), grenzen niet lokaliseren (acte clair vs acte éclairé)
E. Coherence	4	Systemische integratie (lokaal correct maar globaal incorrect), cross-instrument incoherentie (GDPR vs AI Act), autoriteit inflatie (AG Opinion als bindend behandelen), citatie-propositie mismatch

Deze faalmodi zijn niet detecteerbaar door simpele lookup. Het detecteren ervan vereist zelf doctrinaire competentie. Een systeem dat robuust is tegen deze taxonomy simuleert niet doctrinal reasoning, het presteert iets wat meetbaar equivalent is.

De AI Act-implicatie: Article 15(2) als constructieve verplichting

Dit is waar het paper van academisch naar operationeel kantelt. Article 15 AI Act:

Article 15(1): High-risk AI-systemen moeten een "appropriate level of accuracy" bereiken
Article 15(2): De Commissie moet "de ontwikkeling van benchmarks en meetmethodologieën aanmoedigen"
Article 15(3): Accuracy-niveaus en metrics moeten in de gebruiksaanwijzing staan

Voor AI-systemen onder Annex III punt 8(a), "AI systems intended to be used by a judicial authority or on their behalf to assist a judicial authority in researching and interpreting facts and the law and in applying the law to a concrete set of facts", is de intended purpose precies doctrinal legal reasoning.

Wat betekent "accuracy" voor zo'n systeem? Een transcriptiesysteem heeft een natuurlijke eenheid voor accuracy (woordfoutpercentage). De accuracy van juridische interpretatie is de internal, normative, contestable en coherence-dependent kwaliteit die Finck beschrijft. Geen enkele bestaande metric vangt dit.

Finck's conclusie: Article 15(2) maakt het ontwikkelen van doctrinal-reasoning benchmarks tot een constructieve verplichting op de Commissie. Het is geen optionele "aanmoediging", zonder deze benchmarks kunnen de verplichtingen van Article 15(1) en 15(3) niet worden nagekomen.

Wat bestaat er wél, en wat mist het

Finck survey't de belangrijkste legal AI benchmarks:

Benchmark	Wat het test	Wat het mist
ECtHR-CASES	Outcome prediction (violation yes/no)	Normativity, reasoning ≠ outcome
LexGLUE	Classificatie, prediction, recognition	Internalism, normativity, contestability
LegalBench	6 typen legal reasoning (atomair)	Coherence, taken zijn bewust atomair
GreekBarBench	Open-ended bar exam vragen	Contestability, scoort tegen één referentie-antwoord
LEXam	Zürich law exams (open-ended)	Coherence (cursus-specifiek, niet systeem-breed), contestability
BenGER	Duitse subsumptie (4-staps)	Coherence, test rule-to-facts, niet systemische fit
Harvey LAB	Real-world legal tasks	Doctrinal defensibility, meet taakvoltooiing, niet redeneerkwaliteit

Geen enkele test doctrinal legal reasoning in EU-recht. De bestaande benchmarks testen paralegal taken, examenvragen, of atomische reasoning taken. Geen enkele vangt internalism, normativity, contestability, en coherence tegelijk, en geen enkele is gebouwd voor EU-recht.

De kern: De AI Act eist "appropriate accuracy" voor AI in de rechtspraak. Maar wat telt als accuracy voor juridisch redeneren? Het antwoord bestaat niet, en de wet verplicht de Commissie het te maken. Tot die tijd is elke claim van "AI Act-compliant juridische AI" een fictie.

Bron: Finck, M. (2026). "The Measurement Gap in the Automation of EU Law: Benchmarking Doctrinal Legal Reasoning under the EU AI Act." arXiv:2606.18158. Chair of Law and Artificial Intelligence, Universität Tübingen.

De paper: een jurist die de AI-wereld een spiegel voorhoudt

Diagnose 1: We kunnen niet vertellen of een model doctrinally redeneert of slechts de oppervlakte van juridische taal reproduceert, omdat bestaande benchmarks paralegal taken testen (retrieval, classificatie, extractie, examenvragen) in plaats van doctrinal reasoning zelf.
Diagnose 2: De AI Act verplicht het creëren van doctrinal-reasoning benchmarks. Article 15(2) draagt de Commissie op "de ontwikkeling van benchmarks en meetmethodologieën aan te moedigen" voor accuracy. Article 15(3) eist dat accuracy-niveaus en metrics in de gebruiksaanwijzing staan. Beide zijn onvoorwaardelijke verplichtingen die nu niet uitvoerbaar zijn.
Constructieve bijdrage: Een taxonomy van 21 faalmodi die elke benchmark voor doctrinal reasoning in EU-recht zou moeten detecteren.

Wat is doctrinal legal reasoning?

Internalism, redeneren vanuit het perspectief van een deelnemer in de rechtsorde, niet een externe observator. De startvraag is "wat is het recht?", niet "wat vinden mensen van het recht?"
Normativity, evaluatief oordeel over welke van meerdere interpretaties het beste past. Doctrinal reasoning is niet descriptief ("dit is wat de bronnen zeggen") maar prescriptief ("dit is wat het recht vereist"). Een LLM is een engine van descriptieve distributie, het sampelt uit de spreiding van lezingen gewogen naar prevalentie in trainingsdata. Maar in EU-recht is de dominante lezing niet daarom de correcte.
Contestability, een goed doctrinal argument produceert geen zekerheid maar een sterke verdedigbare positie die objecties anticipeert. Dit is geen defect van het systeem maar een structureel kenmerk: juridische regels hebben "open texture" (HLA Hart). Contestability moet onderscheiden worden van indeterminacy, juridische vragen zijn betwistbaar maar blijven rationeel traceerbaar.
Coherence, normen moeten "samenhangen" als een systematisch geheel. Coherence is niet slechts de afwezigheid van contradictie maar de positieve eigenschap dat proposities een begrijpelijk geheel vormen. Het is coherence die het beslissende werk doet in hard cases: waar twee lezingen elk consistent zijn met de lokale regel, kiest de doctrinal interpreter degene die beter past bij de principes van het rechtsgebied als geheel.

Waarom EU-recht het extra moeilijk maakt

In EU-recht zijn deze vier kenmerken niet alleen aanwezig maar geïntensiveerd:

Semantisch internalisme: EU-rechtelijke concepten hebben een autonome betekenis. Het begrip "werknemer" of "consument" in EU-recht is niet hetzelfde als in Nederlands, Duits of Frans recht. LLMs die getraind zijn op Engelstalige, US-jurisdictie corpora missen dit onderscheid fundamenteel.
Teleologische interpretatie: EU-recht is expliciet normatief. De interpretatieve methode is doelgericht, het betere argument richting de verdragsdoelstellingen wint, niet de statistisch meest frequente lezing.
24 authentieke taalversies: EU-recht is meertalig. Geen enkele taalversie mag als enige interpretatieve basis dienen. Waar taalversies divergeren, moet de rechter die divergenties in de redenering betrekken. Multilingualisme vermenigvuldigt verdedigbare lezingen.
Article 267 TFEU: De prejudiciële procedure institutionaliseert contestability. Zelfs de hoogste nationale rechters kunnen het oneens zijn over de interpretatie van EU-recht.
Coherence als constitutioneel vereiste: Elke bepaling moet "in haar context worden geplaatst en geïnterpreteerd in het licht van het EU-recht als geheel, rekening houdend met haar doelstellingen en staat van evolutie."

De 21 faalmodi, een taxonomy als bouwsteen

Categorie	#	Voorbeelden
A. Source Recognition & Authority	5	Hiërarchie van normen verwarren (soft law gelijkstellen aan Verdrag), lagen van normen niet onderscheiden (primair vs secundair recht), soft law als unitair geheel behandelen, rechterlijk gezag miswegen (Grand Chamber vs chamber vs AG Opinions), autonome EU-concepten negeren
B. Operative Doctrines	4	Direct effect/consistent interpretation fouten, procedurele context negeren (preliminary ruling ≠ infringement judgment), scope of application (wanneer is EU-recht van toepassing?), blindheid voor nationale implementatie van richtlijnen
C. Interpretive Method	4	Methode-selectie (letterlijk vs contextueel vs teleologisch), frequentie verwarren met correctheid (Dassonville→Keck), recitals misverstaan, multilingualisme negeren
D. Temporal & Contested Reasoning	4	Jurisprudentiële evolutie missen, temporele evolutie van juridische landschappen, contestatie niet signaleren (pending references), grenzen niet lokaliseren (acte clair vs acte éclairé)
E. Coherence	4	Systemische integratie (lokaal correct maar globaal incorrect), cross-instrument incoherentie (GDPR vs AI Act), autoriteit inflatie (AG Opinion als bindend behandelen), citatie-propositie mismatch

De AI Act-implicatie: Article 15(2) als constructieve verplichting

Dit is waar het paper van academisch naar operationeel kantelt. Article 15 AI Act:

Article 15(1): High-risk AI-systemen moeten een "appropriate level of accuracy" bereiken
Article 15(2): De Commissie moet "de ontwikkeling van benchmarks en meetmethodologieën aanmoedigen"
Article 15(3): Accuracy-niveaus en metrics moeten in de gebruiksaanwijzing staan

Wat bestaat er wél, en wat mist het

Finck survey't de belangrijkste legal AI benchmarks:

Benchmark	Wat het test	Wat het mist
ECtHR-CASES	Outcome prediction (violation yes/no)	Normativity, reasoning ≠ outcome
LexGLUE	Classificatie, prediction, recognition	Internalism, normativity, contestability
LegalBench	6 typen legal reasoning (atomair)	Coherence, taken zijn bewust atomair
GreekBarBench	Open-ended bar exam vragen	Contestability, scoort tegen één referentie-antwoord
LEXam	Zürich law exams (open-ended)	Coherence (cursus-specifiek, niet systeem-breed), contestability
BenGER	Duitse subsumptie (4-staps)	Coherence, test rule-to-facts, niet systemische fit
Harvey LAB	Real-world legal tasks	Doctrinal defensibility, meet taakvoltooiing, niet redeneerkwaliteit

De AI Act eist accurate juridische AI. We kunnen niet meten wat dat betekent.

De paper: een jurist die de AI-wereld een spiegel voorhoudt

Wat is doctrinal legal reasoning?

Waarom EU-recht het extra moeilijk maakt

De 21 faalmodi, een taxonomy als bouwsteen

De AI Act-implicatie: Article 15(2) als constructieve verplichting

Wat bestaat er wél, en wat mist het