Probabilistische agenten in deterministische audits: waarom AI de BIO2-toets (nog) niet haalt
Laatst zat ik met een compliance officer van een middelgrote gemeente. Ze had net de eerste ronde van de BIO2-audit achter de rug en was vooral moe. “We hebben wekenlang documenten verzameld, handmatig gecheckt of elke maatregel uit de baseline klopte, en dan nog twintig keer heen en weer met de auditor over interpretatieverschillen.” Ze vroeg zich hardop af of AI niet gewoon die hele audit kon doen. Het antwoord is genuanceerder dan je denkt. Een nieuw paper uit Duitsland laat precies zien waar de grens ligt.
Het paper Probabilistic Agents in Deterministic Audits (arXiv:2606.25622) onderzocht of je een multi-agent RAG-systeem kunt inzetten voor geautomatiseerde audits op basis van de Duitse IT-Grundschutz. Dat is in essentie het Duitse equivalent van onze BIO2: een set verplichte beveiligingsmaatregelen voor overheidsorganisaties, met een sterke overlap met NIS2-eisen. De onderzoekers bouwden een systeem dat documentatie semantisch doorzoekt, relevante passages extraheert en toetst aan de formele eisen van de IT-Grundschutz. Het resultaat is een schoolvoorbeeld van wat wél werkt en wat absoluut niet werkt met AI in compliance.
Wat me opviel: het systeem presteerde verrassend goed bij het doorploegen van documentatie. Denk aan het herkennen van maatregelen in een wirwar van beleidsstukken, configuratierapporten en netwerktekeningen. De multi-agent-opzet, waarbij gespecialiseerde agents elk een deel van de audit voor hun rekening nemen, haalde een hoge recall op semantische extractie. Oftewel: het systeem vond bijna alle relevante passages die een menselijke auditor ook zou markeren. Dat is geen triviale prestatie. In de praktijk zie ik dat juist dit soort handmatig zoekwerk bij gemeenten en ZBO’s een enorme kostenpost is. Een AI die dat betrouwbaar voorbereidt, scheelt al snel duizenden euro’s per audit.
Maar dan komt de crux. Zodra het systeem deterministische redeneerstappen moest zetten, denk aan een formele Protection Needs Analysis (PNA) of een IT-Grundschutz Check, ging het fout. Niet een beetje fout, maar structureel fout. De LLM’s hallucineerden, trokken verkeerde conclusies uit correcte data, of sloegen verplichte stappen over. In een PNA moet je bijvoorbeeld op basis van Schutzbedarfskategorien (beschermingsbehoeftecategorieën) exact bepalen welke maatregelen verplicht zijn. Dat is een deterministisch proces: als de vertrouwelijkheid ‘hoog’ is, dan geldt maatregel X, anders Y. Een LLM kan die logica niet betrouwbaar volgen. Het model gokt, extrapoleert, en mist de rigide consistentie die een norm vereist.
Dit is geen verrassing als je begrijpt hoe LLM’s werken. Ze zijn probabilistisch. Ze genereren tokens op basis van waarschijnlijkheid, niet op basis van formele logica. Een audit daarentegen is in de kern deterministisch: je toetst of aan een eis is voldaan, ja of nee. Er is geen ruimte voor “waarschijnlijk wel”. De BIO2 en de onderliggende NEN-ISO/IEC 27001:2023 zijn keihard in hun eisen. Een auditor wil geen 87% zekerheid dat maatregel 8.3 correct is geïmplementeerd; die wil bewijs.
Wat hier interessant is: het paper laat zien dat je het hybride model serieus moet nemen. De AI doet het voorwerk, documentatie structureren, samenvatten, relevante paragrafen koppelen aan normelementen, en de mens doet de formele toets. Dat is precies de aanpak die ik bij meerdere organisaties zie ontstaan, vaak uit pure noodzaak. De NIS2-implementatiekosten rijzen de pan uit, en de BIO2-verplichting voor gemeenten en provincies maakt het er niet makkelijker op. In een eerdere post over de NIS2-deadline van 2025 schreef ik al dat de handhavingslast voor decentrale overheden onderschat wordt. AI kan die last verlichten, maar niet wegnemen.
De technische opzet van het onderzochte systeem is leerzaam. Het gebruikte een multi-agent RAG-architectuur: één agent voor document retrieval, één voor extractie van maatregelen, één voor het mappen op IT-Grundschutz-modules. Retrieval-augmented generatie speelt hierbij een centrale rol. De agents halen informatie op, verwerken die en brengen de resultaten in kaart. Niet alles werkt even goed. Vooral bij het interpreteren van complexe normteksten blijkt menselijke controle onmisbaar. De AI helpt, maar kan de verantwoordelijkheid niet overnemen.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten, direct in uw inbox.
Security & AI Operating Model
Advisory met executiekracht
Van BIO2 en NIS2 tot EU AI Act, embedded in uw operating model, niet als extern project. Maandelijks opzegbaar, met assessments als bewijsvoering.