De AI Act eist accurate juridische AI. We kunnen niet meten wat dat betekent.
AI GovernanceJuni 2026. De AI Act is live. De high-risk verplichtingen gaan in augustus in. En er is één fundamenteel probleem waar niemand het over heeft: we kunnen niet meten of juridische AI-systemen doen wat de wet eist.
Michèle Finck, hoogleraar Law and AI aan de Universität Tübingen, publiceert een paper dat de vinger legt op een meetkloof die zowel methodologisch als juridisch is. LLMs produceren nu routinematig juridische tekst van mediane kwaliteit, elke academicus die take-home tentamens nakijkt weet dit. Maar geen enkele bestaande benchmark test of ze doctrinal legal reasoning doen: de kern van juridisch werk. En de EU AI Act maakt "appropriate accuracy" een bindende eis voor high-risk AI in het juridische domein. Een eis die niet geoperationaliseerd kan worden zonder precies de benchmark die niet bestaat.
De paper: een jurist die de AI-wereld een spiegel voorhoudt
Finck schrijft niet als computer scientist maar als jurist. Haar paper is een methodologisch-juridische analyse, geen technische benchmark-specificatie. Ze stelt twee diagnoses en één constructieve bijdrage:
-
Diagnose 1: We kunnen niet vertellen of een model doctrinally redeneert of slechts de oppervlakte van juridische taal reproduceert, omdat bestaande benchmarks paralegal taken testen (retrieval, classificatie, extractie, examenvragen) in plaats van doctrinal reasoning zelf.
-
Diagnose 2: De AI Act verplicht het creëren van doctrinal-reasoning benchmarks. Article 15(2) draagt de Commissie op "de ontwikkeling van benchmarks en meetmethodologieën aan te moedigen" voor accuracy. Article 15(3) eist dat accuracy-niveaus en metrics in de gebruiksaanwijzing staan. Beide zijn onvoorwaardelijke verplichtingen die nu niet uitvoerbaar zijn.
-
Constructieve bijdrage: Een taxonomy van 21 faalmodi die elke benchmark voor doctrinal reasoning in EU-recht zou moeten detecteren.
Wat is doctrinal legal reasoning?
Finck destilleert uit de methodologische literatuur vier structurele kenmerken. Dit is geen academische haarkloverij, dit zijn de criteria waarmee de juridische gemeenschap beoordeelt of een doctrinal argument competent is gemaakt:
-
Internalism, redeneren vanuit het perspectief van een deelnemer in de rechtsorde, niet een externe observator. De startvraag is "wat is het recht?", niet "wat vinden mensen van het recht?"
-
Normativity, evaluatief oordeel over welke van meerdere interpretaties het beste past. Doctrinal reasoning is niet descriptief ("dit is wat de bronnen zeggen") maar prescriptief ("dit is wat het recht vereist"). Een LLM is een engine van descriptieve distributie, het sampelt uit de spreiding van lezingen gewogen naar prevalentie in trainingsdata. Maar in EU-recht is de dominante lezing niet daarom de correcte.
-
Contestability, een goed doctrinal argument produceert geen zekerheid maar een sterke verdedigbare positie die objecties anticipeert. Dit is geen defect van het systeem maar een structureel kenmerk: juridische regels hebben "open texture" (HLA Hart). Contestability moet onderscheiden worden van indeterminacy, juridische vragen zijn betwistbaar maar blijven rationeel traceerbaar.
-
Coherence, normen moeten "samenhangen" als een systematisch geheel. Coherence is niet slechts de afwezigheid van contradictie maar de positieve eigenschap dat proposities een begrijpelijk geheel vormen. Het is coherence die het beslissende werk doet in hard cases: waar twee lezingen elk consistent zijn met de lokale regel, kiest de doctrinal interpreter degene die beter past bij de principes van het rechtsgebied als geheel.
Waarom EU-recht het extra moeilijk maakt
In EU-recht zijn deze vier kenmerken niet alleen aanwezig maar geïntensiveerd:
-
Semantisch internalisme: EU-rechtelijke concepten hebben een autonome betekenis. Het begrip "werknemer" of "consument" in EU-recht is niet hetzelfde als in Nederlands, Duits of Frans recht. LLMs die getraind zijn op Engelstalige, US-jurisdictie corpora missen dit onderscheid fundamenteel.
-
Teleologische interpretatie: EU-recht is expliciet normatief. De interpretatieve methode is doelgericht, het betere argument richting de verdragsdoelstellingen wint, niet de statistisch meest frequente lezing.
-
24 authentieke taalversies: EU-recht is meertalig. Geen enkele taalversie mag als enige interpretatieve basis dienen. Waar taalversies divergeren, moet de rechter die divergenties in de redenering betrekken. Multilingualisme vermenigvuldigt verdedigbare lezingen.
-
Article 267 TFEU: De prejudiciële procedure institutionaliseert contestability. Zelfs de hoogste nationale rechters kunnen het oneens zijn over de interpretatie van EU-recht.
-
Coherence als constitutioneel vereiste: Elke bepaling moet "in haar context worden geplaatst en geïnterpreteerd in het licht van het EU-recht als geheel, rekening houdend met haar doelstellingen en staat van evolutie."
De 21 faalmodi, een taxonomy als bouwsteen
Finck levert geen benchmark maar wél wat een jurist verantwoord kan bijdragen aan een interdisciplinair project: een taxonomy van 21 faalmodi in vijf categorieën. Dit zijn fouten die competente juristen ook kunnen maken, ze markeren de grens tussen doctrinaire competentie en de afwezigheid ervan:
| Categorie | # | Voorbeelden |
|---|---|---|
| A. Source Recognition & Authority | 5 | Hiërarchie van normen verwarren (soft law gelijkstellen aan Verdrag), lagen van normen niet onderscheiden (primair vs secundair recht), soft law als unitair geheel behandelen, rechterlijk gezag miswegen (Grand Chamber vs chamber vs AG Opinions), autonome EU-concepten negeren |
| B. Operative Doctrines | 4 | Direct effect/consistent interpretation fouten, procedurele context negeren (preliminary ruling ≠ infringement judgment), scope of application (wanneer is EU-recht van toepassing?), blindheid voor nationale implementatie van richtlijnen |
| C. Interpretive Method | 4 | Methode-selectie (letterlijk vs contextueel vs teleologisch), frequentie verwarren met correctheid (Dassonville→Keck), recitals misverstaan, multilingualisme negeren |
| D. Temporal & Contested Reasoning | 4 | Jurisprudentiële evolutie missen, temporele evolutie van juridische landschappen, contestatie niet signaleren (pending references), grenzen niet lokaliseren (acte clair vs acte éclairé) |
| E. Coherence | 4 | Systemische integratie (lokaal correct maar globaal incorrect), cross-instrument incoherentie (GDPR vs AI Act), autoriteit inflatie (AG Opinion als bindend behandelen), citatie-propositie mismatch |
Deze faalmodi zijn niet detecteerbaar door simpele lookup. Het detecteren ervan vereist zelf doctrinaire competentie. Een systeem dat robuust is tegen deze taxonomy simuleert niet doctrinal reasoning, het presteert iets wat meetbaar equivalent is.
De AI Act-implicatie: Article 15(2) als constructieve verplichting
Dit is waar het paper van academisch naar operationeel kantelt. Article 15 AI Act:
- Article 15(1): High-risk AI-systemen moeten een "appropriate level of accuracy" bereiken
- Article 15(2): De Commissie moet "de ontwikkeling van benchmarks en meetmethodologieën aanmoedigen"
- Article 15(3): Accuracy-niveaus en metrics moeten in de gebruiksaanwijzing staan
Voor AI-systemen onder Annex III punt 8(a), "AI systems intended to be used by a judicial authority or on their behalf to assist a judicial authority in researching and interpreting facts and the law and in applying the law to a concrete set of facts", is de intended purpose precies doctrinal legal reasoning.
Wat betekent "accuracy" voor zo'n systeem? Een transcriptiesysteem heeft een natuurlijke eenheid voor accuracy (woordfoutpercentage). De accuracy van juridische interpretatie is de internal, normative, contestable en coherence-dependent kwaliteit die Finck beschrijft. Geen enkele bestaande metric vangt dit.
Finck's conclusie: Article 15(2) maakt het ontwikkelen van doctrinal-reasoning benchmarks tot een constructieve verplichting op de Commissie. Het is geen optionele "aanmoediging", zonder deze benchmarks kunnen de verplichtingen van Article 15(1) en 15(3) niet worden nagekomen.
Wat bestaat er wél, en wat mist het
Finck survey't de belangrijkste legal AI benchmarks:
| Benchmark | Wat het test | Wat het mist |
|---|---|---|
| ECtHR-CASES | Outcome prediction (violation yes/no) | Normativity, reasoning ≠ outcome |
| LexGLUE | Classificatie, prediction, recognition | Internalism, normativity, contestability |
| LegalBench | 6 typen legal reasoning (atomair) | Coherence, taken zijn bewust atomair |
| GreekBarBench | Open-ended bar exam vragen | Contestability, scoort tegen één referentie-antwoord |
| LEXam | Zürich law exams (open-ended) | Coherence (cursus-specifiek, niet systeem-breed), contestability |
| BenGER | Duitse subsumptie (4-staps) | Coherence, test rule-to-facts, niet systemische fit |
| Harvey LAB | Real-world legal tasks | Doctrinal defensibility, meet taakvoltooiing, niet redeneerkwaliteit |
Geen enkele test doctrinal legal reasoning in EU-recht. De bestaande benchmarks testen paralegal taken, examenvragen, of atomische reasoning taken. Geen enkele vangt internalism, normativity, contestability, en coherence tegelijk, en geen enkele is gebouwd voor EU-recht.
De kern: De AI Act eist "appropriate accuracy" voor AI in de rechtspraak. Maar wat telt als accuracy voor juridisch redeneren? Het antwoord bestaat niet, en de wet verplicht de Commissie het te maken. Tot die tijd is elke claim van "AI Act-compliant juridische AI" een fictie.
Bron: Finck, M. (2026). "The Measurement Gap in the Automation of EU Law: Benchmarking Doctrinal Legal Reasoning under the EU AI Act." arXiv:2606.18158. Chair of Law and Artificial Intelligence, Universität Tübingen.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten, direct in uw inbox.
Security & AI Operating Model
Advisory met executiekracht
Van BIO2 en NIS2 tot EU AI Act, embedded in uw operating model, niet als extern project. Maandelijks opzegbaar, met assessments als bewijsvoering.