← Terug naar blog

Data kwaliteit evolutie public sector Nederland

AI

L1: Summary

Managementsamenvatting

De Nederlandse publieke sector bevindt zich op een cruciaal kantelpunt in haar digitale transformatie. De historische benadering van datamanagement gekenmerkt door een rigide scheiding tussen transactionele systemen (OLTP) en analytische rapportageomgevingen (OLAP) is niet langer toereikend voor de complexe eisen van het moderne digitale tijdperk. De gelijktijdige opkomst van Generatieve AI, de dwingende noodzaak tot real-time ketensamenwerking en de steeds striktere geopolitieke en juridische kaders (BIO, NIS2, AVG, EU AI Act, Archiefwet, Wet Open Overheid) dwingen overheidsorganisaties tot een fundamentele en strategische herziening van hun data-architectuur. Het tijdperk van vrijblijvende innovatie is voorbij; we betreden een fase van gereguleerde, soevereine en auditbare intelligentie.

Dit onderzoeksrapport biedt een uitputtende analyse en een uitvoerbaar, architecturaal kader voor de transformatie van gefragmenteerde ‘legacy’ datalandschappen naar geïntegreerde, soevereine en intelligente dataplatforms. Uit onze analyse blijkt onomstotelijk dat een Sovereign Hybrid Lakehouse architectuur, ondersteund door een operating model gebaseerd op Team Topologies, de enige houdbare strategie is om digitale soevereiniteit te verenigen met de vereiste innovatiekracht en wendbaarheid. Wij constateren een significante ‘soevereiniteitskloof’ bij het onkritisch gebruik van publieke cloud-diensten, waarbij juridische garanties vaak niet stroken met de technische realiteit van extraterritoriale toegang.1 Deze kloof dient gedicht te worden door on-premise en soevereine cloud-implementaties te verkiezen boven generieke hyperscaler diensten, tenzij strikte encryptie (Hold Your Own Key – HYOK) en confidential computing worden toegepast om data ook tijdens verwerking (‘in use’) te beschermen.

De urgentie voor deze transitie wordt versterkt door de verschuiving van statische data-analyse naar dynamische, AI-gedreven interacties. Waar voorheen rapportages achteraf werden gedraaid, vereisen burgers en beleidsmakers nu real-time inzichten en voorspellende waarde. Dit vraagt om een infrastructuur die niet alleen data opslaat, maar deze ook begrijpt en veilig ontsluit via semantische zoektechnologie en gecontroleerde AI-agenten. Het risico van inactiviteit is niet slechts technologisch, maar raakt de kern van het openbaar bestuur: het verlies van controle over eigen data, afhankelijkheid van niet-Europese actoren en het onvermogen om te voldoen aan transparantieverplichtingen.

Top 10 Strategische Conclusies

De onderstaande conclusies vormen de synthese van onze analyse van het huidige technologische landschap, afgezet tegen de specifieke eisen van de Nederlandse overheid.

Top 10 Risico’s en Mitigaties

RisicoContextImpactMitigatieVendor Lock-in via SaaSAfhankelijkheid van propriëtaire AI/Data platforms zonder exit-pad.Onmogelijkheid om van leverancier te wisselen; data gijzeling; soevereiniteitsverlies.Exit Strategie Verplichting: Contractueel en technisch afdwingen van open data formaten (Parquet, Iceberg) en API-standaarden. 1Data Swamp door LakehouseOngecontroleerde dump van data in object storage zonder schema of eigenaar.Onvindbare data, non-compliance met AVG/WOO, ‘Garbage In, Garbage Out’.Data Contracts: Afdwingen van schema en kwaliteit bij ingestie. Automated Lifecycle: Verplichte TTL policies. 1Schaduw-AI GebruikTeams gebruiken publieke ChatGPT met gevoelige overheidsdata.Datalekken van staatsgeheimen of persoonsgegevens naar commerciële partijen.Private AI Faciliteit: Bied een intern, veilig alternatief (Private LLM). Blokkeer toegang tot publieke AI-endpoints. 4Hallucinerende AgentenAI-agenten nemen autonome beslissingen op basis van onjuiste feiten.Juridische fouten, reputatieschade, onterechte beschikkingen.Grounding & Human-in-the-loop: Verplicht gebruik van RAG met bronvermelding. Kritieke acties vereisen menselijke accordering. 4Supply Chain PoisoningMalafide code of modellen geïnjecteerd via open source dependencies.Achterdeurtjes in vitale systemen, data exfiltratie.Private Registry & Signing: Gebruik alleen getekende artifacts uit eigen beveiligde registry. Scan alle inkomende containers/modellen. 5Cognitieve OverbelastingDevOps teams bezwijken onder de complexiteit van DB/AI beheer.Uitval van personeel, configuratiefouten, security incidenten.Platform Engineering: Centraliseer complexiteit in het platformteam. Bied ‘Golden Paths’ aan voor standaard use cases. 5Legacy ObstructieOude systemen blokkeren integratie met moderne IAM/Zero Trust.Kwetsbare plekken in het netwerk, onmogelijkheid tot ketenintegratie.Containment Pattern: Isoleer legacy achter moderne API-gateways en proxies (sidecar pattern). Plan harde uitfasering.Compliance ParalysisAngst voor regelgeving (AVG, AI Act) legt innovatie stil.Achterstand in dienstverlening, inefficiëntie, maatschappelijke onvrede.Compliance as Code: Automatiseer controles in de pipeline. Enabling teams adviseren proactief in plaats van alleen blokkeren. 5Kostenexplosie On-PremOnderschatting van TCO voor GPU-clusters en storage.Budgetoverschrijdingen, stilvallen van projecten.FinOps & Showback: Maak kosten inzichtelijk per team/domein. Deel resources dynamisch (Kubernetes quotas).Federatieve ChaosGebrek aan standaarden leidt tot onbruikbare data-uitwisseling in de keten.Inefficiënte ketensamenwerking, fouten in gegevensuitwisseling.Data Governance Board: Stel interbestuurlijke standaarden vast voor metadata en API’s. Gebruik een federatieve catalogus. 1

Target Architecture (5 Bullets)

Stop Doing / Start Doing

Stop DoingStart DoingStop met het blindelings verplaatsen van datasets met classificatie ‘Vertrouwelijk’ of hoger naar publieke clouds zonder HYOK-architectuur.Start met het inventariseren en classificeren van alle datasets en het inrichten van een on-premise S3-compatibele storage layer als veilige haven.Stop met het gedogen van AI-experimenten op lokale laptops of in onbeheerde persoonlijke cloud-accounts.Start met het inrichten van een centraal ‘Platform Team’ dat een beveiligde, gecontaineriseerde AI-ontwikkelomgeving (sandbox) als dienst aanbiedt aan teams.Stop met het opslaan van kritieke logfiles in platte tekst, op lokale disks of zonder strikt retentiebeleid.Start met de implementatie van centrale, onwijzigbare (immutable) logging en archivering die voldoet aan de eisen van de Archiefwet en WOO.Stop met ad-hoc database selecties door individuele teams op basis van persoonlijke voorkeur (“Resume Driven Development”).Start met het definiëren en publiceren van ‘Golden Paths’ voor PostgreSQL, Vector en Object Stores met pre-approved, veilige configuraties.Stop met het vertrouwen op traditionele netwerk-perimeterbeveiliging (firewalls) als enige verdedigingslinie.Start met de implementatie van workload identity en mTLS authenticatie tussen alle services binnen het domein.

L2: Strategische Analyse

2.1 Database Evolutie Timeline: Lessen uit het Verleden

De geschiedenis van databasetechnologie in de publieke sector is geen rechtlijnige progressie van ‘slecht’ naar ‘goed’, maar een cyclische beweging tussen uitersten: van strikte consistentie naar flexibiliteit, en van centralisatie naar decentralisatie. Het begrijpen van deze historische context is essentieel om huidige trends te duiden en niet mee te gaan in kortstondige hypes die fundamentele overheidsbelangen schaden.

1960-1970: De Hiërarchische Era (IMS, CODASYL) – De Geboorte van de Basisregistratie

1980-2000: De Relationele Hegemonie (RDBMS – Oracle, DB2, SQL Server) – De Gouden Standaard

2000-2010: De NoSQL Revolutie en Data Lakes (Hadoop, MongoDB) – De Reactie op Web-Scale

2010-2020: NewSQL en de Cloud Data Warehouse (Snowflake, Spanner) – De Synthese

2020-Heden: Het Lakehouse, Vector en Convergence – Het Tijdperk van AI

2.2 Huidig Landschap: Categorieën en Archetypen

Voor de Nederlandse overheid identificeren we vier dominante archetypen die in de periode 2025-2030 relevant zijn. De focus verschuift van pure technologie naar de rol die de database speelt in de architectuur.

2.3 Public Sector Drivers en Compliance

De technologische keuzes worden ingekaderd door dwingende drivers die uniek zijn voor de publieke sector:

2.4 Capability Map: Bezitten versus Inkopen

In een soevereine on-prem context verandert de klassieke ‘buy vs. build’ discussie naar ‘operate vs. consume’. Wat moet de overheid zelf beheren om soevereiniteit te borgen, en wat kan als commodity worden afgenomen (binnen strikte kaders)?

CapabilityAdvies (On-Prem/Sovereign)Rationale & Trade-offsCommodity RDBMS (Postgres/MySQL)Operate (via Platform Team)**Volwassen Kubernetes-operators (zoals CloudNativePG) maken zelfbeheer haalbaar en vaak goedkoper dan managed services. Zelfbeheer geeft volledige controle over patches, extensies en encryptie.**Vector Search / AI InfraOperate (Dedicated Team)**Deze data is vaak te gevoelig voor externe SaaS. Performance (latency) vereist fysieke nabijheid tot de data. Vereist specialistische kennis die intern opgebouwd moet worden.Identity (IAM)****Own / ControlIdentity is de nieuwe perimeter. De Identity Provider (IdP) moet onder absolute eigen controle staan (bv. Keycloak of sovereign beheerde dienst). Het uitbesteden van identity is het uitbesteden van de sleutels tot het koninkrijk.**Logging & SIEMHybridLog collectie en opslag moeten on-premise gebeuren (data gravity/residency). Analyse kan eventueel via gespecialiseerde (lokale) security partners, mits data residency gegarandeerd is en data niet de EU verlaat.GenAI Modellen (LLM)****Own / HostGebruik open weights modellen (Llama, Mistral) gehost op eigen GPU-infrastructuur voor alle vertrouwelijke en interne data. Gebruik publieke SaaS-modellen alleen voor publieke, niet-gevoelige data en content creatie, en nooit voor besluitvorming.4

L3: Architectuur en Design Guide

3.1 Reference Architecture: De Soevereine Hybride Stack

Deze referentiearchitectuur is modulair opgebouwd in lagen, specifiek ontworpen om vendor lock-in te minimaliseren, auditability te maximaliseren en te voldoen aan de strenge eisen van de Nederlandse overheid.

3.1.1 Infrastructure Layer (De Fundering)

3.1.2 Data Persistence Layer (Polyglot Governance)

We onderscheiden drie strikte architectuurpatronen voor dataopslag om wildgroei te voorkomen:

3.1.3 Integration & Streaming Layer

3.1.4 Intelligence & AI Layer

3.2 Decision Matrix: Database Selectie

Om technologische wildgroei te voorkomen, hanteren we een dwingende beslisboom voor architecten en teams:

KarakteristiekAanbevolen TechnologieWaarom? (Rationale & Context)Gestructureerd, ACID, RelatiesPostgreSQLDe facto open source standaard, enorm ecosysteem, ondersteunt JSON/Vector, geen licentiekosten, uitstekende Kubernetes support.Ongestructureerd, Analytics, ArchiefLakehouse (S3 + Iceberg)**Kostenefficiënt voor grote volumes, scheiding compute/storage (schaalbaarheid), open standaard (geen lock-in), ondersteunt ’time travel’.**Full-text Search, LogsOpenSearch / ElasticsearchBewezen technologie voor tekst en logs, krachtige aggregaties, breed geaccepteerd in de markt.**Semantische Search (RAG)****Vector DB (Weaviate/pgvector)**Noodzakelijk voor AI context retrieval. Pgvector voor eenvoudige cases (geïntegreerd in Postgres), Weaviate/Qdrant voor schaal en hybrid search.**Complexe Netwerken (Fraude)****Graph DB (Neo4j)**Relaties zijn ‘first class citizens’. Performant bij diepe traversals (vriend-van-vriend-van-vriend) waar SQL faalt.**High Frequency Metrics (IoT)****Time-Series (Prometheus/Influx)**Geoptimaliseerde compressie en retentie policies voor data die als stroom binnenkomt en na verloop van tijd minder relevant wordt.

3.3 Search Architectuur: Hybrid Retrieval en Reranking

Voor de publieke sector is standaard vector search vaak onvoldoende. Vector search vindt concepten (bijv. “voertuig”), maar mist vaak exacte termen (bijv. een specifiek kenteken “X-123-YZ”) die cruciaal zijn in dossiers.

3.4 AI & Agentic Design Patterns

L4: Security, Privacy en Governance by Design

4.1 Threat Modeling en Zero Trust

De beveiligingsarchitectuur gaat uit van de fundamentele aanname dat het netwerk vijandig is (Zero Trust) en dat de perimeter doorbroken kan zijn.

4.2 Data Governance en Privacy

4.3 Supply Chain Security (NIS2)

De software supply chain voor databases en AI is een aantrekkelijk doelwit. Een kwetsbaarheid in een veelgebruikte library kan duizenden systemen compromitteren.

4.4 AI Governance (EU AI Act)

L5: Operating Model met Team Topologies

Om deze complexe, hybride architectuur beheersbaar te houden en de cognitieve belasting van teams te beperken, is een strikte organisatievorm nodig gebaseerd op de principes van Team Topologies.

5.1 Team Types en Verantwoordelijkheden

5.2 Interactiepatronen en Cognitive Load Management

Het primaire doel van dit model is om de cognitieve load van de Stream-aligned teams te verlagen, zodat zij zich kunnen focussen op hun domein. Een ontwikkelaar bij “Dienstverlening” moet zich niet druk hoeven maken over PostgreSQL back-up strategieën, OS-patching of vector-index tuning.

5.3 RACI Matrix (Data Domein)

Een heldere verdeling van taken voorkomt discussie tijdens incidenten.

ActiviteitStream-aligned TeamPlatform TeamSecurity/Privacy EnablingData Owner (Business)Schema Design & DatamodelResponsibleConsultedIAccountableDB Patching/Upgrade (OS/Engine)IResponsibleIIData Kwaliteit & Correctheid****ResponsibleIIAccountableBackup & Restore (Infrastructuur)IResponsibleIAccountable (stelt RPO/RTO eis)Access Policy Definitie (Wie mag wat)****ResponsibleIConsultedAccountableIncident Response (Applicatie/Data)****ResponsibleConsultedConsultedInformedIncident Response (Infrastructuur)****InformedResponsibleConsultedInformed

L6: Use Cases – Architectuur en Governance in de Praktijk

Hieronder werken we 8 concrete use cases uit, specifiek voor de Nederlandse publieke sector.

UC1: Informatievoorziening en Dossierzoeking met Rechtenmodel

UC2: Juridische en Beleidsdocumenten Retrieval (Legal RAG)

UC3: Fraude en Anomaliedetectie met Privacy Waarborgen

UC4: Incident Response en Security Analytics (SIEM+)

UC5: Publieksdienstverlening (KCC Chatbot)

UC6: Wet en Regelgeving Impactanalyse (Traceability)

UC7: Ketensamenwerking en Datadeling

UC8: AI-Agent Assistenten met Tool Calling

L7: Roadmap en Investment Case

De transformatie naar deze architectuur is geen ‘big bang’, maar een beheerst meerjarenplan.

7.1 Roadmap Fasering

7.2 Investment Case & FinOps

On-premise AI en Big Data vereisen aanzienlijke CapEx (hardware) investeringen, in tegenstelling tot de OpEx van cloud.

L8: Annexen en Templates

A.1 One-Page Decision Tree (Tekstuele Weergave)

A.2 Failure Modes en Mitigaties

Failure ModeContextMitigatie****Polyglot ChaosTeams kiezen elke week een nieuwe ‘hippe’ database technologie.Strikte ‘Service Catalog’. Alleen door het platform ondersteunde DB’s mogen gedeployed worden. Afwijking vereist business case en zelfbeheer.Data SwampLakehouse vult zich met data zonder eigenaar, schema of opschoning.Data Contracts verplicht stellen bij ingestie. Automatische, onverbiddelijke TTL (Time-To-Live) policies op buckets.Shadow AITeams gebruiken ChatGPT publiek met gevoelige data uit frustratie over interne traagheid.Bied een beter, sneller en veiliger intern alternatief aan (Private LLM). Blokkeer technisch de toegang tot publieke AI-API’s.Vector AmnesiaVector index en bron data lopen uit de pas (hallucinaties over verouderde data).Implementeer robuuste CDC-pipelines (Change Data Capture) die updates real-time doorzetten naar de index.Governance TheaterVeel papierwerk en beleid, maar geen technische handhaving.Policy-as-Code (bijv. OPA). Regels worden afgedwongen in de infrastructuur, niet in Word-documenten.

A.3 Checklist voor Architectuur Review (Audit Ready)

Dit document is opgesteld als leidraad voor strategische besluitvorming binnen de Rijksoverheid en aanverwante publieke organisaties, met inachtneming van de geldende kaders voor soevereiniteit en veiligheid.

DjimIT Nieuwsbrief

AI updates, praktijkcases en tool reviews — tweewekelijks, direct in uw inbox.

Gerelateerde artikelen