ISO 42001 is een startpunt, geen eindpunt voor agentic AI

AI & Architectuur

Een ISO 42001-certificaat aan de muur zegt niets over of jouw AI-agent morgen een prompt-injectie oploopt en ongezien transacties uitvoert. Dat is de harde les die ik laatst weer meemaakte bij een financiële instelling. Ze hadden net hun AI-managementsysteem laten toetsen, keurig volgens de ISO 42001:2023. Een maand later bleek hun LLM-agent voor compliance-rapportages via een indirecte prompt-injectie in een bijlage een interne API aan te roepen die transactiedata naar een extern endpoint stuurde. De ISO-auditor had naar het beleid gekeken, niet naar de architectuur. Precies dat gat wordt nu gedicht door CEDAR-42001, een nieuw framework dat ISO 42001-conformiteit koppelt aan architecture-aware assurance voor AI cyber-physical systems. Het paper is de eerste peer-reviewed publicatie die agentic threat models systematisch verbindt met de ISO 42001-controls, gevoed door productie-ervaring in de financiële sector.

Wat hier interessant is, is dat het framework erkent dat een AI-managementsysteem alleen niet volstaat zodra je te maken hebt met agentic AI. Dat zijn systemen die zelfstandig tools aanroepen, data verplaatsen en beslissingen nemen in fysieke of digitale omgevingen. ISO 42001 is een managementsysteemnorm, vergelijkbaar met ISO 27001 voor informatiebeveiliging. Het eist beleid, risicomanagement, continue verbetering, maar schrijft geen concrete technische maatregelen voor. Voor een statisch ML-model dat een classificatie-uitvoer geeft, kun je met een goed ISMS en wat bias-testen een eind komen. Voor een agent die een heel ecosysteem van API’s, databases en externe services orkestreert, is dat onvoldoende. De dreigingen zijn fundamenteel anders.

Het CEDAR-42001-framework introduceert zes dreigingscategorieën die rechtstreeks uit productie-ervaring in de financiële sector komen. Die categorieën zijn: prompt injection, identity, action auditability, tool abuse, data residency en boundary violations. Ze zijn niet hypothetisch. Ik heb bij een Nederlandse verzekeraar gezien hoe een agent via een indirecte prompt-injectie in een klantdocument een tool aanriep die polisvoorwaarden kon wijzigen. De agent had een systeemprompt die instructies uit documenten moest negeren, maar een specifiek geformatteerde bijlage, een PDF met verborgen tekstlagen, omzeilde die guardrail. De agent las de tekstlaag als een instructie en voerde een update_policy-call uit met parameters uit de prompt. De logging liet alleen zien dat de tool was aangeroepen, niet dat de instructie uit een extern document kwam. Dat is precies de combinatie van prompt injection en action auditability die het framework adresseert.

De zes categorieën in detail:

Prompt injection: zowel direct (gebruiker injecteert in chat) als indirect (injectie via data die de agent verwerkt, zoals documenten, e-mails, webpagina’s). Het framework eist dat je op architectuurniveau scheiding aanbrengt tussen data en instructies. Bijvoorbeeld door een aparte ‘instruction context’ die niet door externe content overschreven kan worden.
Identity: een agent kan handelen onder een verkeerde identiteit, bijvoorbeeld door een rol aan te nemen die niet bij de sessie hoort. In een multi-tenant omgeving kan een agent per ongeluk data van de ene klant onder de identiteit van een andere klant verwerken. Het framework koppelt dit aan ISO 42001’s eisen rond verantwoordelijkheid en toegangsbeheer (clausule 8.3) en schrijft voor dat elke tool-aanroep een onweerlegbare identiteitscontext meekrijgt.
Action auditability: niet alleen dát een tool is aangeroepen, maar met welke context, door welke trigger, en met welk resultaat. De standaard logging van een LangChain-agent (versie 0.3.x) geeft je een trace van tool calls, maar mist vaak de herkomst van de instructie. Het framework stelt een audit trail voor dat de volledige causale keten vastlegt, inclusief de bron van de prompt en eventuele tussenliggende reasoning-stappen.
Tool abuse: een agent gebruikt een tool op een manier die buiten de bedoelde scope valt.

AI & Security Intelligence

Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten, direct in uw inbox.

Security & AI Operating Model

Advisory met executiekracht

Van BIO2 en NIS2 tot EU AI Act, embedded in uw operating model, niet als extern project. Maandelijks opzegbaar, met assessments als bewijsvoering.

Bekijk advisory niveaus →Plan een intake

ISO 42001 is een startpunt, geen eindpunt voor agentic AI

AI & Architectuur

De zes categorieën in detail:

Prompt injection: zowel direct (gebruiker injecteert in chat) als indirect (injectie via data die de agent verwerkt, zoals documenten, e-mails, webpagina’s). Het framework eist dat je op architectuurniveau scheiding aanbrengt tussen data en instructies. Bijvoorbeeld door een aparte ‘instruction context’ die niet door externe content overschreven kan worden.
Identity: een agent kan handelen onder een verkeerde identiteit, bijvoorbeeld door een rol aan te nemen die niet bij de sessie hoort. In een multi-tenant omgeving kan een agent per ongeluk data van de ene klant onder de identiteit van een andere klant verwerken. Het framework koppelt dit aan ISO 42001’s eisen rond verantwoordelijkheid en toegangsbeheer (clausule 8.3) en schrijft voor dat elke tool-aanroep een onweerlegbare identiteitscontext meekrijgt.
Action auditability: niet alleen dát een tool is aangeroepen, maar met welke context, door welke trigger, en met welk resultaat. De standaard logging van een LangChain-agent (versie 0.3.x) geeft je een trace van tool calls, maar mist vaak de herkomst van de instructie. Het framework stelt een audit trail voor dat de volledige causale keten vastlegt, inclusief de bron van de prompt en eventuele tussenliggende reasoning-stappen.
Tool abuse: een agent gebruikt een tool op een manier die buiten de bedoelde scope valt.

AI & Security Intelligence

Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten, direct in uw inbox.

Security & AI Operating Model

Advisory met executiekracht

Van BIO2 en NIS2 tot EU AI Act, embedded in uw operating model, niet als extern project. Maandelijks opzegbaar, met assessments als bewijsvoering.

Bekijk advisory niveaus →Plan een intake

ISO 42001 is een startpunt, geen eindpunt voor agentic AI

AI & Security Intelligence

Advisory met executiekracht

Gerelateerde artikelen

LongCat-2.0: 1.6T parameters, maar de overheid kijkt naar iets anders

Code is de agent-runtime - waarom het 'code as harness'-paper agentic AI herdefinieert

Prompt injection is geen bug, het is een architectuurfout

ISO 42001 is een startpunt, geen eindpunt voor agentic AI

AI & Security Intelligence

Advisory met executiekracht

Gerelateerde artikelen

LongCat-2.0: 1.6T parameters, maar de overheid kijkt naar iets anders

Code is de agent-runtime - waarom het 'code as harness'-paper agentic AI herdefinieert

Prompt injection is geen bug, het is een architectuurfout