Audits zijn deterministisch. Een beveiligingsmaatregel is geïmplementeerd of niet. Een bewijsstuk is aanwezig of afwezig. Er is geen ruimte voor ‘waarschijnlijk wel’ of ‘het lijkt erop’. Toch duiken overal probabilistische systemen op, LLM’s, die precies dat doen: waarschijnlijkheden genereren. Het recente paper “Probabilistic Agents in Deterministic Audits” laat scherp zien waar dat botst. Het is precies de pijn die ik wekelijks tegenkom bij Nederlandse overheidsorganisaties die worstelen met NIS2 en de BIO2.

Laatst zat ik met een CISO van een middelgrote gemeente om tafel. Zijn team had maandenlang bewijs verzameld voor de BIO2-baseline, schermafbeeldingen, configuratiebestanden, beleidsdocumenten. De externe auditor haalde er in twee dagen zoveel gaten in dat ze bijna door de mand vielen. “Kan AI dit niet gewoon voor ons checken?” vroeg hij. Het eerlijke antwoord: deels. En dat ‘deels’ is precies het probleem.

Wat het paper onderzocht

De onderzoekers bouwden een multi-agent systeem met HybridRAG. Dat combineert dense en sparse retrieval om IT-Grundschutz-audits te automatiseren. IT-Grundschutz is het Duitse equivalent van de Nederlandse BIO2, de Baseline Informatiebeveiliging Overheid. Het systeem moest zelfstandig beoordelen of aan bepaalde beveiligingseisen werd voldaan, op basis van een set documenten.

Het systeem werkte met meerdere AI-agents. Een retriever-agent haalt relevante passages uit documenten. Een reasoner-agent beoordeelt of die passages voldoen aan de eis. Een verificatie-agent controleert de uitkomst. HybridRAG combineert vectorzoekopdrachten met trefwoordgebaseerde zoekopdrachten zoals BM25. Zo wordt de recall verhoogd. Dat klinkt solide.

En voor een deel werkt het. Het systeem vindt relevante documenten. Het kan bij eenvoudige, feitelijke vragen aangeven of een maatregel gedocumenteerd is. Maar zodra de vraag deterministisch wordt, “Is aan álle deelvereisten van beveiligingseis X voldaan?”, gaat het mis.

Waar het spaak loopt

Neem een concrete eis uit het IT-Grundschutz, bijvoorbeeld APP.1.1.A1: Er moet een actueel en volledig applicatie-inventaris bestaan. In de BIO2-vertaling is dit vrijwel identiek. De eis is deterministisch: óf je hebt een inventaris, óf niet. En die inventaris moet volledig zijn en actueel.

Wat deed het multi-agent systeem? Het vond een document met de titel “Applicatie-inventaris 2024”. De reasoner-agent concludeerde: “Er is een applicatie-inventaris aangetroffen. Eis is vervuld.” Maar het document bleek slechts een deel van de applicaties te bevatten, een verouderde export uit een CMDB van één afdeling. Een menselijke auditor had direct gezien dat het bewijs onvolledig was. Het AI-systeem niet. Het gaf een probabilistisch oordeel, “waarschijnlijk voldaan”, en presenteerde dat als een binaire ‘compliant’.

Dit is geen uitzondering. In het paper faalden de LLM’s consistent op deductieve taken. Denk aan het combineren van meerdere condities, het controleren van volledigheid, het toepassen van strikte EN-logica. De modellen, discrete versies worden niet genoemd, maar de tests zijn uitgevoerd met state-of-the-art LLM’s zoals GPT-4, hallucineerden bewijs. Ze trokken verkeerde conclusies uit gedeeltelijke informatie. Of ze gaven vage antwoorden waar een harde ja/nee vereist was.

De BIO2/NIS2-realiteit

Voor Nederlandse overheidsorganisaties is dit geen theoretisch probleem. De BIO2 is een directe afgeleide van de BSI IT-Grundschutz. Met de invoering van NIS2 vallen steeds meer organisaties onder een wettelijke zorgplicht voor cybersecurity. Inclusief aantoonbare compliance. De auditdruk neemt explosief toe. Tegelijkertijd is er een schreeuwend tekort aan auditors en informatiebeveiligers.

De verleiding is groot om AI in te zetten voor het ‘automatisch auditen’. Maar dit paper toont exact de crisis: je kunt het voorwerk versnellen, maar de eindconclusie mag je niet aan een LLM overlaten.

Probabilistische agents, deterministische audits: waarom AI faalt bij NIS2-compliance

Wat het paper onderzocht

Waar het spaak loopt

De BIO2/NIS2-realiteit

AI & Security Intelligence

Advisory met executiekracht

Gerelateerde artikelen

Het signaal dat je niet ziet: waarom onbekende risico’s de échte compliance-killer zijn

De Belastingdienst en digitale autonomie - van Kamerbrief naar uitvoeringsrealiteit

Nederlandse developer bouwt de 'Lynis voor compliance' - en dat is precies wat de overheid nodig heeft

Probabilistische agents, deterministische audits: waarom AI faalt bij NIS2-compliance

Wat het paper onderzocht

Waar het spaak loopt

De BIO2/NIS2-realiteit

AI & Security Intelligence

Advisory met executiekracht

Gerelateerde artikelen

Het signaal dat je niet ziet: waarom onbekende risico’s de échte compliance-killer zijn

De Belastingdienst en digitale autonomie - van Kamerbrief naar uitvoeringsrealiteit

Nederlandse developer bouwt de 'Lynis voor compliance' - en dat is precies wat de overheid nodig heeft