Vorige week publiceerden drie researchgroepen, onafhankelijk van elkaar, papers die samen een ongemakkelijke waarheid blootleggen: het model-level governance paradigma waarop de EU AI Act gebouwd is, is aan het scheuren.

GuidaPA laat zien dat je een overheidschatbot kunt trainen zonder data te centraliseren . Federated Learning met QLoRA levert near-centralized kwaliteit. OADA introduceert een operationeel framework dat governance van een dashboard naar een beslissingslaag tilt. En een coalitie van onderzoekers van Google DeepMind, UK AISI en Oxford betoogt dat niet-model gebonden capability gains : inference scaling, agents, scaffolds : het reguleringskader uithollen.

De rode draad: AI governance in 2026 vraagt om meer dan modelkaarten en pre-deployment evaluaties. Het vraagt om meerlaagse, operationele controle die verder kijkt dan het model.

Paper 1: De chatbot die data niet verplaatst

GuidaPA (Jimenez-Gutierrez et al., Sapienza Universiteit Rome) is een chatbot voor de Italiaanse overheid die via Federated Learning getraind is op documentatie van twee nationale platforms: SIDFORS (telecom-diensten) en SIGESON (radio-omroep). Ongeveer 40 pagina's aan handleidingen en FAQ's. De truc: QLoRA fine-tuning in 4-bit over 15 federated rounds waarbij ruwe documenten nooit een centrale server bereiken.

De resultaten zijn overtuigend. Het beste FL-model haalt een ROUGE-1 van 61.10, BLEU-4 van 45.02, en METEOR van 63.94 : dicht tegen private centralized fine-tuning aan. De sprong van een generiek model naar een domein-specifiek model is fors: ROUGE-1 stijgt van 41.45 naar 62.18, BLEU-4 van 26.97 naar 50.90.

Wat me opviel: de architectuur bevat role-based access control, client-side preprocessing, en expliciete monitoring van non-IID effecten. Dit is geen lab-experiment met een CSV'tje. Dit is gebouwd voor institutionele realiteit.

De les voor Nederlandse overheidsorganisaties is helder. Je kunt een chatbot trainen op interne handleidingen, FAQ's en beleidsdocumenten zonder die data te poolen. Privacy-by-design via architectuur. BIO2 en AVG-compliance worden geen papieren exercitie maar een technische eigenschap van je stack.

Paper 2: Van monitoren naar besturen

OADA (Khalid Adnan Alsayed, 27 mei 2026) pakt een fundamenteel probleem aan dat ik in de praktijk vaak zie: AI governance stopt bij een dashboard.

De paper onderscheidt "monitoring" (observeren en rapporteren) van "deployment assurance" (operationeel besturen of een systeem deployed mag blijven). Het introduceert vijf constructen die governance van beschrijvend naar sturend tillen:

Deployment Assurance Score (DAS). Een maat voor deployment-vertrouwen onder operationele onzekerheid
Deployment Readiness Classification (DRC). Interpretatie van deployment-status bij variërende instabiliteit
Threshold Stability Zones (TSZ). Hoe gevoelig is je governance voor veranderingen in drempelwaardes
Governance Escalation States (GES). Escalatiepaden als de onzekerheid toeneemt
Remediation-aware progression. Herbeoordeling van deployment-status na mitigatie

Het punt is scherp: een model kan onder geïsoleerde metrics acceptabel scoren maar tegelijk deployment-instabiliteit vertonen. De paper toont dit aan met gezichtsherkenning en trekt door naar medische AI. Systemen die op papier "fair" zijn, blijken onder drempelwaarde-variatie of subgroep-verschuiving plotseling onbetrouwbaar.

Dit is direct toepasbaar op de EU AI Act. De wet vereist post-market monitoring voor high-risk systemen. Maar hij definieert niet hoe je van monitoring naar een deployment-beslissing komt. OADA vult dat operationele gat.

Paper 3: Het model is niet genoeg

Non-model gains (Goemans, Altman, Dreksler et al., 1 mei 2026) is een position paper van elf onderzoekers uit het topsegment van AI governance. Hun stelling. Model-level governance : het idee dat risico's primair bepaald worden door compute en training data : verliest effectiviteit naarmate capability gains steeds minder uit het model zelf komen.

Ze identificeren drie nu al actieve vectoren:

Vector	Hoe het werkt	Waarom het model-level governance ondermijnt
Inference gain	Schaal compute tijdens inferentie in plaats van tijdens training	DeepSeek-V3.2 verslaat Gemini 3 door 1.5-2.5x meer tokens te gebruiken. Kleinere modellen benaderen frontier-capabilities.
Systems gain	Post-training scaffolds, tools, multi-agent orkestratie	Big Sleep vond de eerste zero-day via een LLM-agent. Statelijke actoren gebruiken complexe Claude Code scaffolds.
Asset gain	Combineer een model met restricted data of hardware	Gevoelige pathogen-data, militaire specificaties, classified software vulnerabilities.

En drie vectoren die eraan komen: embodiment gain (fysieke robots), continual learning (modellen die blijven leren), en diffusion effects (systeemrisico's door massale deployment).

Hun governance-antwoord is een gelaagd model: system governance voor systemen bovenop modellen, entity governance voor de organisaties die ze bouwen, agent governance voor delegatie en interactie, en cloud governance voor monitoring op infrastructuurniveau.

De synthese

Deze drie papers, gepubliceerd in een tijdsbestek van een maand, komen uit verschillende hoeken maar convergeren op hetzelfde punt. GuidaPA toont dat de publieke sector praktisch aan de slag kan met privacy-preserving AI zonder alles in één datacenter te gooien. OADA levert het operationele vocabulaire om deployment-beslissingen te structureren. En de non-model gains paper herinnert ons eraan dat we met modelkaarten alleen het probleem niet vangen.

Voor Nederlandse organisaties die onder de AI Act vallen, betekent dit concreet:

Je AI-register is nodig maar niet voldoende. Een geregistreerd high-risk systeem zegt niets over of het onder operationele omstandigheden betrouwbaar blijft. OADA's DRC en GES zijn de volgende stap.
Federated Learning is productierijp voor publieke-sector chatbots. GuidaPA's resultaten zijn reproduceerbaar. De combinatie FL + QLoRA + RBAC is een architectuurpatroon dat je nu kunt voorstellen aan een CIO van een ministerie.
Non-model gains raken jouw organisatie. Elke organisatie die LLM's via een API gebruikt, heeft te maken met inference gain (het model wordt slimmer doordat de provider reasoning toevoegt). Elke organisatie die tools aan een model hangt, creëert systems gain. En elke organisatie met gevoelige domeinkennis introduceert asset gain.
Governance wordt meerlaags. Modelbeoordeling. System governance. Entity governance. Agent governance. De organisaties die nu investeren in deze lagen, hebben over twee jaar een compliance-voorsprong.

Dit artikel is onderdeel van een reeks over AI governance in de praktijk. Eerder verschenen: AI-engineering toolkit governance, Unsloth als fine-tuning factory, en Anthropic's zero-trust model voor AI-agents.

De rode draad: AI governance in 2026 vraagt om meer dan modelkaarten en pre-deployment evaluaties. Het vraagt om meerlaagse, operationele controle die verder kijkt dan het model.

Paper 1: De chatbot die data niet verplaatst

Paper 2: Van monitoren naar besturen

OADA (Khalid Adnan Alsayed, 27 mei 2026) pakt een fundamenteel probleem aan dat ik in de praktijk vaak zie: AI governance stopt bij een dashboard.

Deployment Assurance Score (DAS). Een maat voor deployment-vertrouwen onder operationele onzekerheid
Deployment Readiness Classification (DRC). Interpretatie van deployment-status bij variërende instabiliteit
Threshold Stability Zones (TSZ). Hoe gevoelig is je governance voor veranderingen in drempelwaardes
Governance Escalation States (GES). Escalatiepaden als de onzekerheid toeneemt
Remediation-aware progression. Herbeoordeling van deployment-status na mitigatie

Paper 3: Het model is niet genoeg

Ze identificeren drie nu al actieve vectoren:

Vector	Hoe het werkt	Waarom het model-level governance ondermijnt
Inference gain	Schaal compute tijdens inferentie in plaats van tijdens training	DeepSeek-V3.2 verslaat Gemini 3 door 1.5-2.5x meer tokens te gebruiken. Kleinere modellen benaderen frontier-capabilities.
Systems gain	Post-training scaffolds, tools, multi-agent orkestratie	Big Sleep vond de eerste zero-day via een LLM-agent. Statelijke actoren gebruiken complexe Claude Code scaffolds.
Asset gain	Combineer een model met restricted data of hardware	Gevoelige pathogen-data, militaire specificaties, classified software vulnerabilities.

En drie vectoren die eraan komen: embodiment gain (fysieke robots), continual learning (modellen die blijven leren), en diffusion effects (systeemrisico's door massale deployment).

De synthese

Voor Nederlandse organisaties die onder de AI Act vallen, betekent dit concreet:

Je AI-register is nodig maar niet voldoende. Een geregistreerd high-risk systeem zegt niets over of het onder operationele omstandigheden betrouwbaar blijft. OADA's DRC en GES zijn de volgende stap.
Federated Learning is productierijp voor publieke-sector chatbots. GuidaPA's resultaten zijn reproduceerbaar. De combinatie FL + QLoRA + RBAC is een architectuurpatroon dat je nu kunt voorstellen aan een CIO van een ministerie.
Non-model gains raken jouw organisatie. Elke organisatie die LLM's via een API gebruikt, heeft te maken met inference gain (het model wordt slimmer doordat de provider reasoning toevoegt). Elke organisatie die tools aan een model hangt, creëert systems gain. En elke organisatie met gevoelige domeinkennis introduceert asset gain.
Governance wordt meerlaags. Modelbeoordeling. System governance. Entity governance. Agent governance. De organisaties die nu investeren in deze lagen, hebben over twee jaar een compliance-voorsprong.

AI governance in 2026: waarom modelbeoordeling niet meer genoeg is

Paper 1: De chatbot die data niet verplaatst

Paper 2: Van monitoren naar besturen

Paper 3: Het model is niet genoeg

De synthese