Probabilistische agents, deterministische audits: waarom AI faalt bij NIS2-compliance
Audits zijn deterministisch. Een beveiligingsmaatregel is geïmplementeerd of niet. Een bewijsstuk is aanwezig of afwezig. Er is geen ruimte voor ‘waarschijnlijk wel’ of ‘het lijkt erop’. Toch duiken overal probabilistische systemen op, LLM’s, die precies dat doen: waarschijnlijkheden genereren. Het recente paper “Probabilistic Agents in Deterministic Audits” laat scherp zien waar dat botst. Het is precies de pijn die ik wekelijks tegenkom bij Nederlandse overheidsorganisaties die worstelen met NIS2 en de BIO2.
Laatst zat ik met een CISO van een middelgrote gemeente om tafel. Zijn team had maandenlang bewijs verzameld voor de BIO2-baseline, schermafbeeldingen, configuratiebestanden, beleidsdocumenten. De externe auditor haalde er in twee dagen zoveel gaten in dat ze bijna door de mand vielen. “Kan AI dit niet gewoon voor ons checken?” vroeg hij. Het eerlijke antwoord: deels. En dat ‘deels’ is precies het probleem.
Wat het paper onderzocht
De onderzoekers bouwden een multi-agent systeem met HybridRAG. Dat combineert dense en sparse retrieval om IT-Grundschutz-audits te automatiseren. IT-Grundschutz is het Duitse equivalent van de Nederlandse BIO2, de Baseline Informatiebeveiliging Overheid. Het systeem moest zelfstandig beoordelen of aan bepaalde beveiligingseisen werd voldaan, op basis van een set documenten.
Het systeem werkte met meerdere AI-agents. Een retriever-agent haalt relevante passages uit documenten. Een reasoner-agent beoordeelt of die passages voldoen aan de eis. Een verificatie-agent controleert de uitkomst. HybridRAG combineert vectorzoekopdrachten met trefwoordgebaseerde zoekopdrachten zoals BM25. Zo wordt de recall verhoogd. Dat klinkt solide.
En voor een deel werkt het. Het systeem vindt relevante documenten. Het kan bij eenvoudige, feitelijke vragen aangeven of een maatregel gedocumenteerd is. Maar zodra de vraag deterministisch wordt, “Is aan álle deelvereisten van beveiligingseis X voldaan?”, gaat het mis.
Waar het spaak loopt
Neem een concrete eis uit het IT-Grundschutz, bijvoorbeeld APP.1.1.A1: Er moet een actueel en volledig applicatie-inventaris bestaan. In de BIO2-vertaling is dit vrijwel identiek. De eis is deterministisch: óf je hebt een inventaris, óf niet. En die inventaris moet volledig zijn en actueel.
Wat deed het multi-agent systeem? Het vond een document met de titel “Applicatie-inventaris 2024”. De reasoner-agent concludeerde: “Er is een applicatie-inventaris aangetroffen. Eis is vervuld.” Maar het document bleek slechts een deel van de applicaties te bevatten, een verouderde export uit een CMDB van één afdeling. Een menselijke auditor had direct gezien dat het bewijs onvolledig was. Het AI-systeem niet. Het gaf een probabilistisch oordeel, “waarschijnlijk voldaan”, en presenteerde dat als een binaire ‘compliant’.
Dit is geen uitzondering. In het paper faalden de LLM’s consistent op deductieve taken. Denk aan het combineren van meerdere condities, het controleren van volledigheid, het toepassen van strikte EN-logica. De modellen, discrete versies worden niet genoemd, maar de tests zijn uitgevoerd met state-of-the-art LLM’s zoals GPT-4, hallucineerden bewijs. Ze trokken verkeerde conclusies uit gedeeltelijke informatie. Of ze gaven vage antwoorden waar een harde ja/nee vereist was.
De BIO2/NIS2-realiteit
Voor Nederlandse overheidsorganisaties is dit geen theoretisch probleem. De BIO2 is een directe afgeleide van de BSI IT-Grundschutz. Met de invoering van NIS2 vallen steeds meer organisaties onder een wettelijke zorgplicht voor cybersecurity. Inclusief aantoonbare compliance. De auditdruk neemt explosief toe. Tegelijkertijd is er een schreeuwend tekort aan auditors en informatiebeveiligers.
De verleiding is groot om AI in te zetten voor het ‘automatisch auditen’. Maar dit paper toont exact de crisis: je kunt het voorwerk versnellen, maar de eindconclusie mag je niet aan een LLM overlaten.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten, direct in uw inbox.
Security & AI Operating Model
Advisory met executiekracht
Van BIO2 en NIS2 tot EU AI Act, embedded in uw operating model, niet als extern project. Maandelijks opzegbaar, met assessments als bewijsvoering.