Agentic AI security is een systeemarchitectuurprobleem — wat 247 papers ons leren
AIEen agent die een webpagina leest, een shell-commando uitvoert, een file wijzigt, of met een andere agent communiceert, dat is geen chatbot met een tooltje. Dat is een semi-autonome softwareactor met gedelegeerde bevoegdheden. En precies dát is de centrale these van "Toward Secure LLM Agents", een systematische review van 247 papers door onderzoekers van Nanjing University en TU Munich, die LLM agent security herpositioneert als software- en systeembeveiliging, niet als prompt-engineering.
Dit is geen academische haarkloverij. Het is de vraag of je agentic AI moet beveiligen met guardrails rond het model, of met trust boundaries, privilege control, containment en provenance, de gereedschappen van volwassen software security.
De lifecycle-framing: waarom prompt injection in agents fundamenteel anders is
De paper introduceert een agentic loop-model met zeven stages: Input → Planning → Decision → Tool Execution → Output, plus twee cross-cutting lagen: Memory/State en Coordination. Risico's worden niet gemodelleerd als losse aanvalstypen, maar als transities: onbetrouwbare input wordt een plan, een plan wordt een tool-call, een tool-call wijzigt state, en state beïnvloedt toekomstige acties.
Dit verklaart waarom prompt injection in agents structureel gevaarlijker is dan bij chatbots. Bij een chatbot eindigt een geslaagde injection in een ongewenste tekst. Bij een agent eindigt diezelfde injection in een shell-commando, een gewijzigd bestand, een verzonden e-mail, of een gecorrumpeerde memory-entry die weken later nog steeds acties stuurt.
Het is het verschil tussen "het model zei iets stoms" en "het model vertaalde onbetrouwbare content naar operationele autoriteit."
Vier bijdragen die het veld definiëren
Eén: een lifecycle-gebaseerd securitymodel. De paper modelleert risico's als tuples zoals I→P (prompt injection beïnvloedt planning), T→M (tool output corrumpeert memory), en C→P (malicious inter-agent message stuurt planning). Dit maakt cross-paper vergelijking mogelijk én legt bloot waar defenses en benchmarks structurele gaten hebben.
Twee: een coherent dreigingslandschap. De dominante dreigingen blijven prompt injection (142 papers) en tool-mediated control-flow hijacking, maar de paper signaleert een structurele verschuiving: het aandeel multi-agent papers groeit van 9,5% (2024) naar 24% (2025). De volgende risicogolf zit in persistent state corruption, memory poisoning en multi-agent propagation.
Drie: het compositieprobleem. Er bestaan zes defense families, input-trust management, runtime monitoring, access control, information-flow control, execution containment, en topology-aware multi-agent containment, maar niemand combineert ze tot een coherente stack. De paper stelt onomwonden: "The field has many defensive components without yet having a strong account of how those components should compose."
Vier: benchmark-fragmentatie als structureel probleem. AgentDojo is de meest hergebruikte benchmark, maar dekt slechts 12,8% van alle benchmark-annotaties in het corpus. En de metrics? Attack Success Rate domineert met 129 papers, terwijl utility slechts 22 keer voorkomt, latency 8 keer, en cost 7 keer. De paper karakteriseert dit terecht als "vulnerability discovery rather than deployment assurance."
Drie aanvalsdynamieken die het spel veranderen
De paper onderscheidt drie propagation patterns die je niet los van elkaar kunt begrijpen.
Mediated entry through untrusted content. Een agent leest een webpagina, e-mail, document of tool-output waarin een verborgen instructie zit. Die instructie wordt niet als data behandeld, maar als control signal. Dit is indirect prompt injection in een tool-using context, en het is de dominante aanvalsdynamiek in 55+ papers over web content, 54 over tool outputs, en 37 over retrieved content.
Delayed reactivation through stored state. Een besmette herinnering, cache, vector entry of planning trace wordt later opnieuw geladen en krijgt dan feitelijk hogere autoriteit dan het oorspronkelijk verdiende. Dit maakt memory poisoning strategisch gevaarlijker dan een eenmalige promptaanval, het overleeft de sessie en reactiveert onvoorspelbaar.
Amplification through inter-agent communication. In multi-agent systemen reist een kwaadaardige instructie via subagents, reviewers, planners of executors door de workflow. Dit lijkt meer op wormachtige verspreiding of supply-chain propagation dan op klassieke chatbotmanipulatie. Een lokale failure wordt systemisch.
Voor Overwatch en de DjimIT-workstationarchitectuur is vooral die derde categorie kritisch. Zodra agents elkaar aansturen, logs hergebruiken, memory delen of plannen doorgeven, moet je agent-output behandelen als untrusted until verified, niet als intern vertrouwde informatie.
Defensies: nuttig, maar nog niet componeerbaar
De zes defense families, geordend langs de agentic loop:
| Defense Family | Interventiepunt | Wat het beschermt | Het fundamentele probleem |
|---|---|---|---|
| Input-trust management | I→P, I→D | Source precedence, instruction hierarchy | Blijft model-mediated, het model moet zelf bron-autoriteit begrijpen |
| Runtime monitoring & guard agents | P→D, D→T, T→O | Unsafe plans en tool-calls detecteren | Latency, false positives, afhankelijk van policy-kwaliteit |
| Access control & least privilege | D→T, T→O | Privilege-escalatie voorkomen | Vereist werkbare permission granularity, de meeste agent frameworks hebben dit niet |
| Information-flow & state isolation | I↔M, M→P, T→M | Memory poisoning, cross-context leakage | Moeilijk vol te houden in long-horizon settings zonder provenance |
| Execution containment | T→O | Post-compromise damage beperken | Engineering cost, compatibility limits |
| Topology-aware multi-agent containment | C→P, C→D, C→C | Cross-agent contagion | Zwak tegen covert collusion; afhankelijk van topology visibility |
De paper maakt één observatie die alles verandert: de sterkste defenses beschermen niet "prompt boundaries" maar authority boundaries. Access control, information-flow control en sandboxing proberen te beperken wat gecompromitteerde reasoning mag beïnvloeden, niet alleen of de input "schoon" is.
Dit is de kern. Je kunt niet vertrouwen dat een agent "veilig denkt." Je moet ervoor zorgen dat een gecompromitteerde agent niets kan doen dat er écht toe doet.
Agentic Zero Trust: van paper naar reference architecture
De paper stopt waar academici moeten stoppen, bij de constatering dat defenses niet componeerbaar zijn. Maar voor productieomgevingen is dat onvoldoende. Hier is de vertaling naar een Agentic Zero Trust Reference Architecture:
- Identity per agent, subagent, tool en workflow, geen gedeelde service accounts
- Least privilege per taak, niet per platform, een browser-agent krijgt geen shell-toegang "voor het geval dat"
- Tool allowlists en deny-by-default execution, elke tool-call moet expliciet zijn toegestaan
- Human approval gates voor irreversible of high-impact actions, geen agent die zelfstandig productie-infra wijzigt
- Context isolation tussen user input, retrieved content, memory en system policy, vermeng geen vertrouwensdomeinen
- Signed memory/provenance voor persistent state, elke memory-entry heeft origin, trust score, TTL en invalidation
- Runtime policy engine vóór tool execution, niet achteraf monitoren, vooraf autoriseren
- Full audit trail met replayable decision traces, als een agent iets doet, moet je kunnen reconstrueren waarom
- Sandboxed execution voor code, shell, browser en file operations, containerschade, vertrouw niet op correctheid
Deze negen controls zijn niet theoretisch. Ze zijn de architecturale vertaling van de paper's conclusie dat agent security authority boundaries vereist, niet prompt boundaries.
De metric-kloof: wat we meten vs. wat we moeten meten
De paper's benchmark-analyse is confronterend. Attack Success Rate wordt 129 keer gerapporteerd. Utility: 22 keer. Latency: 8 keer. Cost: 7 keer.
Een agent-securitymaatregel die 95% van aanvallen blokkeert maar 40% van normale taken frustreert, is in enterprise-context geen volwassen oplossing. Daarom is een zes-dimensie evaluatieframework nodig:
| Dimensie | Metrics |
|---|---|
| Security | Attack Success Rate, data exfiltration rate, unauthorized tool-call rate |
| Utility | Task completion rate, regression rate, refusal rate |
| Operations | Latency, token cost, tool-call overhead |
| State integrity | Memory poisoning persistence, contaminated recall rate |
| Governance | Audit completeness, policy decision explainability |
| Multi-agent | Propagation depth, blast radius, containment time |
Zonder deze multidimensionale evaluatie meet je alleen of een systeem gebroken kan worden, niet of het bestuurbaar blijft onder realistische controls.
Strategische implicaties
Deze paper legitimeert een verschuiving die voor DjimIT's doelgroep direct relevant is: agentic AI moet niet worden bestuurd als model governance, maar als runtime governance voor semi-autonome softwareactoren.
Voor CISO's: LLM-agenten horen in IAM, PAM, SOC, SIEM, SOAR, DLP en third-party risk frameworks, niet alleen in AI-governance commissies. De NSA Zero Trust Integration Guide gaf het framework, deze paper geeft de agent-specifieke onderbouwing.
Voor enterprise architecten: Agentic workflows moeten worden gemodelleerd als event-driven, stateful, privilege-bearing systems, niet als "AI-features" in een bestaande applicatie. Dit raakt direct aan de vier-lagen MCP control-plane architectuur die we eerder beschreven.
Voor AI-governance: Model cards zijn onvoldoende. Je hebt agent cards, tool cards, memory cards, policy cards en runtime evidence nodig. De MCP token theft-analyse van Mitiga liet al zien hoe één zwakke connector de hele keten compromitteert, deze survey bevestigt dat het geen incident is, maar een systeemeigenschap.
Voor DevSecOps: Agent pipelines moeten dezelfde discipline krijgen als software supply chains: SBOM, dependency controls, sandboxing, policy-as-code, signed artifacts en auditability. Niet als "nice to have", als baseline.
Wat dit betekent voor Overwatch
Voor de DjimIT-workstationarchitectuur bevestigt dit paper vier concrete ontwerpkeuzes:
-
Authority transition checks, Overwatch moet niet alleen health checks doen, maar ook controleren of tekst/state correct wordt vertaald naar actie. Elke overgang is een controlepunt.
-
Shared memory als mutable attack surface, Memory entries hebben provenance, trust score, TTL en invalidation nodig. Niet behandelen als neutrale context.
-
Blast-radius containment, Subagents mogen niet automatisch elkaars output vertrouwen. Planner, executor, reviewer en memory-writer moeten gescheiden privileges hebben. Eén gecompromitteerde agent mag niet de hele workflow besmetten.
-
Discovery/planning-only gates, Overwatch Phase 3B's ontwerpbeslissing om update discovery en agent learning loops strikt gescheiden te houden van mutating execution past precies bij de aanbevelingen uit deze paper.
Conclusie
"Toward Secure LLM Agents" is niet het zoveelste prompt injection-overzicht. Het is een fundamentele herpositionering van agentic AI security als systems security-probleem, empirisch onderbouwd met 247 papers, methodologisch transparant, en met een analytisch framework dat verder reikt dan de som der delen.
De belangrijkste les: beveilig LLM-agenten niet alsof het chatbots zijn. Beveilig ze alsof het semi-autonome softwareactoren zijn met identiteit, bevoegdheden, geheugen, afhankelijkheden, side effects en auditplicht.
Voor productieomgevingen is de minimale norm: least privilege, tool mediation, provenance-aware memory, runtime policy enforcement, sandboxing, monitoring, human approval gates, en benchmarkevaluatie die niet alleen attack success meet maar ook utility, cost, latency en state integrity.
8,5/10. Sterk als survey en conceptueel raamwerk. Geen implementatieblauwdruk, maar de uitstekende wetenschappelijke onderbouwing die een Agentic Zero Trust Operating Model nodig heeft.
Gebaseerd op: Ling, Y., Yu, S., Chen, Z. & Fang, C. (2026). "Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation." arXiv:2606.10749. Nanjing University & TU Munich. 42 pagina's, 247 papers gesynthetiseerd.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten, direct in uw inbox.
Security & AI Operating Model
Advisory met executiekracht
Van BIO2 en NIS2 tot EU AI Act, embedded in uw operating model, niet als extern project. Maandelijks opzegbaar, met assessments als bewijsvoering.