Een agent die een webpagina leest, een shell-commando uitvoert, een file wijzigt, of met een andere agent communiceert, dat is geen chatbot met een tooltje. Dat is een semi-autonome softwareactor met gedelegeerde bevoegdheden. En precies dát is de centrale these van "Toward Secure LLM Agents", een systematische review van 247 papers door onderzoekers van Nanjing University en TU Munich, die LLM agent security herpositioneert als software- en systeembeveiliging, niet als prompt-engineering.

Dit is geen academische haarkloverij. Het is de vraag of je agentic AI moet beveiligen met guardrails rond het model, of met trust boundaries, privilege control, containment en provenance, de gereedschappen van volwassen software security.

De lifecycle-framing: waarom prompt injection in agents fundamenteel anders is

De paper introduceert een agentic loop-model met zeven stages: Input → Planning → Decision → Tool Execution → Output, plus twee cross-cutting lagen: Memory/State en Coordination. Risico's worden niet gemodelleerd als losse aanvalstypen, maar als transities: onbetrouwbare input wordt een plan, een plan wordt een tool-call, een tool-call wijzigt state, en state beïnvloedt toekomstige acties.

Dit verklaart waarom prompt injection in agents structureel gevaarlijker is dan bij chatbots. Bij een chatbot eindigt een geslaagde injection in een ongewenste tekst. Bij een agent eindigt diezelfde injection in een shell-commando, een gewijzigd bestand, een verzonden e-mail, of een gecorrumpeerde memory-entry die weken later nog steeds acties stuurt.

Het is het verschil tussen "het model zei iets stoms" en "het model vertaalde onbetrouwbare content naar operationele autoriteit."

Vier bijdragen die het veld definiëren

Eén: een lifecycle-gebaseerd securitymodel. De paper modelleert risico's als tuples zoals I→P (prompt injection beïnvloedt planning), T→M (tool output corrumpeert memory), en C→P (malicious inter-agent message stuurt planning). Dit maakt cross-paper vergelijking mogelijk én legt bloot waar defenses en benchmarks structurele gaten hebben.

Twee: een coherent dreigingslandschap. De dominante dreigingen blijven prompt injection (142 papers) en tool-mediated control-flow hijacking, maar de paper signaleert een structurele verschuiving: het aandeel multi-agent papers groeit van 9,5% (2024) naar 24% (2025). De volgende risicogolf zit in persistent state corruption, memory poisoning en multi-agent propagation.

Drie: het compositieprobleem. Er bestaan zes defense families, input-trust management, runtime monitoring, access control, information-flow control, execution containment, en topology-aware multi-agent containment, maar niemand combineert ze tot een coherente stack. De paper stelt onomwonden: "The field has many defensive components without yet having a strong account of how those components should compose."

Vier: benchmark-fragmentatie als structureel probleem. AgentDojo is de meest hergebruikte benchmark, maar dekt slechts 12,8% van alle benchmark-annotaties in het corpus. En de metrics? Attack Success Rate domineert met 129 papers, terwijl utility slechts 22 keer voorkomt, latency 8 keer, en cost 7 keer. De paper karakteriseert dit terecht als "vulnerability discovery rather than deployment assurance."

Drie aanvalsdynamieken die het spel veranderen

De paper onderscheidt drie propagation patterns die je niet los van elkaar kunt begrijpen.

Mediated entry through untrusted content. Een agent leest een webpagina, e-mail, document of tool-output waarin een verborgen instructie zit. Die instructie wordt niet als data behandeld, maar als control signal. Dit is indirect prompt injection in een tool-using context, en het is de dominante aanvalsdynamiek in 55+ papers over web content, 54 over tool outputs, en 37 over retrieved content.

Delayed reactivation through stored state. Een besmette herinnering, cache, vector entry of planning trace wordt later opnieuw geladen en krijgt dan feitelijk hogere autoriteit dan het oorspronkelijk verdiende. Dit maakt memory poisoning strategisch gevaarlijker dan een eenmalige promptaanval, het overleeft de sessie en reactiveert onvoorspelbaar.

Amplification through inter-agent communication. In multi-agent systemen reist een kwaadaardige instructie via subagents, reviewers, planners of executors door de workflow. Dit lijkt meer op wormachtige verspreiding of supply-chain propagation dan op klassieke chatbotmanipulatie. Een lokale failure wordt systemisch.

Voor productieomgevingen is vooral die derde categorie kritisch. Zodra agents elkaar aansturen, logs hergebruiken, memory delen of plannen doorgeven, moet je agent-output behandelen als untrusted until verified, niet als intern vertrouwde informatie.

Defensies: nuttig, maar nog niet componeerbaar

De zes defense families, geordend langs de agentic loop:

Defense Family	Interventiepunt	Wat het beschermt	Het fundamentele probleem
Input-trust management	`I→P`, `I→D`	Source precedence, instruction hierarchy	Blijft model-mediated, het model moet zelf bron-autoriteit begrijpen
Runtime monitoring & guard agents	`P→D`, `D→T`, `T→O`	Unsafe plans en tool-calls detecteren	Latency, false positives, afhankelijk van policy-kwaliteit
Access control & least privilege	`D→T`, `T→O`	Privilege-escalatie voorkomen	Vereist werkbare permission granularity, de meeste agent frameworks hebben dit niet
Information-flow & state isolation	`I↔M`, `M→P`, `T→M`	Memory poisoning, cross-context leakage	Moeilijk vol te houden in long-horizon settings zonder provenance
Execution containment	`T→O`	Post-compromise damage beperken	Engineering cost, compatibility limits
Topology-aware multi-agent containment	`C→P`, `C→D`, `C→C`	Cross-agent contagion	Zwak tegen covert collusion; afhankelijk van topology visibility

De paper maakt één observatie die alles verandert: de sterkste defenses beschermen niet "prompt boundaries" maar authority boundaries. Access control, information-flow control en sandboxing proberen te beperken wat gecompromitteerde reasoning mag beïnvloeden, niet alleen of de input "schoon" is.

Dit is de kern. Je kunt niet vertrouwen dat een agent "veilig denkt." Je moet ervoor zorgen dat een gecompromitteerde agent niets kan doen dat er écht toe doet.

Agentic Zero Trust: van paper naar reference architecture

De paper stopt waar academici moeten stoppen, bij de constatering dat defenses niet componeerbaar zijn. Maar voor productieomgevingen is dat onvoldoende. Hier is de vertaling naar een Agentic Zero Trust Reference Architecture:

Identity per agent, subagent, tool en workflow, geen gedeelde service accounts
Least privilege per taak, niet per platform, een browser-agent krijgt geen shell-toegang "voor het geval dat"
Tool allowlists en deny-by-default execution, elke tool-call moet expliciet zijn toegestaan
Human approval gates voor irreversible of high-impact actions, geen agent die zelfstandig productie-infra wijzigt
Context isolation tussen user input, retrieved content, memory en system policy, vermeng geen vertrouwensdomeinen
Signed memory/provenance voor persistent state, elke memory-entry heeft origin, trust score, TTL en invalidation
Runtime policy engine vóór tool execution, niet achteraf monitoren, vooraf autoriseren
Full audit trail met replayable decision traces, als een agent iets doet, moet je kunnen reconstrueren waarom
Sandboxed execution voor code, shell, browser en file operations, containerschade, vertrouw niet op correctheid

Deze negen controls zijn niet theoretisch. Ze zijn de architecturale vertaling van de paper's conclusie dat agent security authority boundaries vereist, niet prompt boundaries.

De metric-kloof: wat we meten vs. wat we moeten meten

De paper's benchmark-analyse is confronterend. Attack Success Rate wordt 129 keer gerapporteerd. Utility: 22 keer. Latency: 8 keer. Cost: 7 keer.

Een agent-securitymaatregel die 95% van aanvallen blokkeert maar 40% van normale taken frustreert, is in enterprise-context geen volwassen oplossing. Daarom is een zes-dimensie evaluatieframework nodig:

Dimensie	Metrics
Security	Attack Success Rate, data exfiltration rate, unauthorized tool-call rate
Utility	Task completion rate, regression rate, refusal rate
Operations	Latency, token cost, tool-call overhead
State integrity	Memory poisoning persistence, contaminated recall rate
Governance	Audit completeness, policy decision explainability
Multi-agent	Propagation depth, blast radius, containment time

Zonder deze multidimensionale evaluatie meet je alleen of een systeem gebroken kan worden, niet of het bestuurbaar blijft onder realistische controls.

Strategische implicaties

Deze paper legitimeert een verschuiving die voor DjimIT's doelgroep direct relevant is: agentic AI moet niet worden bestuurd als model governance, maar als runtime governance voor semi-autonome softwareactoren.

Voor CISO's: LLM-agenten horen in IAM, PAM, SOC, SIEM, SOAR, DLP en third-party risk frameworks, niet alleen in AI-governance commissies. De NSA Zero Trust Integration Guide gaf het framework, deze paper geeft de agent-specifieke onderbouwing.

Voor enterprise architecten: Agentic workflows moeten worden gemodelleerd als event-driven, stateful, privilege-bearing systems, niet als "AI-features" in een bestaande applicatie. Dit raakt direct aan de vier-lagen MCP control-plane architectuur die we eerder beschreven.

Voor AI-governance: Model cards zijn onvoldoende. Je hebt agent cards, tool cards, memory cards, policy cards en runtime evidence nodig. De MCP token theft-analyse van Mitiga liet al zien hoe één zwakke connector de hele keten compromitteert, deze survey bevestigt dat het geen incident is, maar een systeemeigenschap.

Voor DevSecOps: Agent pipelines moeten dezelfde discipline krijgen als software supply chains: SBOM, dependency controls, sandboxing, policy-as-code, signed artifacts en auditability. Niet als "nice to have", als baseline.

Concrete implementatie-implicaties

Voor organisaties die nu al agentic workflows bouwen, of dat nou coding agents, RAG-pipelines, of multi-agent orchestration is, bevestigt dit paper vier ontwerpkeuzes:

Authority transition checks, security monitoring moet niet alleen health checks doen, maar ook controleren of tekst/state correct wordt vertaald naar actie. Elke overgang van interpretatie naar executie is een controlepunt.
Shared memory als mutable attack surface, memory entries hebben provenance, trust score, TTL en invalidation nodig. Gedeelde context tussen agents is geen neutraal doorgeefluik maar een primair beveiligingsoppervlak.
Blast-radius containment, subagents mogen niet automatisch elkaars output vertrouwen. Planner, executor, reviewer en memory-writer moeten gescheiden privileges hebben. Eén gecompromitteerde agent mag niet de hele workflow besmetten.
Discovery/planning-only gates, leer- en analyse-loops moeten strikt gescheiden blijven van mutating execution. Een agent die nieuwe informatie ontdekt of leert, mag niet in dezelfde privilege-context opereren als een agent die productie-wijzigingen doorvoert.

Deze vier principes zijn geen academische aanbevelingen, ze zijn de vertaling van 247 papers aan bewijs naar operationele architectuurregels.

Conclusie

"Toward Secure LLM Agents" is niet het zoveelste prompt injection-overzicht. Het is een fundamentele herpositionering van agentic AI security als systems security-probleem, empirisch onderbouwd met 247 papers, methodologisch transparant, en met een analytisch framework dat verder reikt dan de som der delen.

De belangrijkste les: beveilig LLM-agenten niet alsof het chatbots zijn. Beveilig ze alsof het semi-autonome softwareactoren zijn met identiteit, bevoegdheden, geheugen, afhankelijkheden, side effects en auditplicht.

Voor productieomgevingen is de minimale norm: least privilege, tool mediation, provenance-aware memory, runtime policy enforcement, sandboxing, monitoring, human approval gates, en benchmarkevaluatie die niet alleen attack success meet maar ook utility, cost, latency en state integrity.

8,5/10. Sterk als survey en conceptueel raamwerk. Geen implementatieblauwdruk, maar de uitstekende wetenschappelijke onderbouwing die een Agentic Zero Trust Operating Model nodig heeft.

Gebaseerd op: Ling, Y., Yu, S., Chen, Z. & Fang, C. (2026). "Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation." arXiv:2606.10749. Nanjing University & TU Munich. 42 pagina's, 247 papers gesynthetiseerd.

De lifecycle-framing: waarom prompt injection in agents fundamenteel anders is

Het is het verschil tussen "het model zei iets stoms" en "het model vertaalde onbetrouwbare content naar operationele autoriteit."

Vier bijdragen die het veld definiëren

Drie aanvalsdynamieken die het spel veranderen

De paper onderscheidt drie propagation patterns die je niet los van elkaar kunt begrijpen.

Defensies: nuttig, maar nog niet componeerbaar

De zes defense families, geordend langs de agentic loop:

Defense Family	Interventiepunt	Wat het beschermt	Het fundamentele probleem
Input-trust management	`I→P`, `I→D`	Source precedence, instruction hierarchy	Blijft model-mediated, het model moet zelf bron-autoriteit begrijpen
Runtime monitoring & guard agents	`P→D`, `D→T`, `T→O`	Unsafe plans en tool-calls detecteren	Latency, false positives, afhankelijk van policy-kwaliteit
Access control & least privilege	`D→T`, `T→O`	Privilege-escalatie voorkomen	Vereist werkbare permission granularity, de meeste agent frameworks hebben dit niet
Information-flow & state isolation	`I↔M`, `M→P`, `T→M`	Memory poisoning, cross-context leakage	Moeilijk vol te houden in long-horizon settings zonder provenance
Execution containment	`T→O`	Post-compromise damage beperken	Engineering cost, compatibility limits
Topology-aware multi-agent containment	`C→P`, `C→D`, `C→C`	Cross-agent contagion	Zwak tegen covert collusion; afhankelijk van topology visibility

Dit is de kern. Je kunt niet vertrouwen dat een agent "veilig denkt." Je moet ervoor zorgen dat een gecompromitteerde agent niets kan doen dat er écht toe doet.

Agentic Zero Trust: van paper naar reference architecture

Identity per agent, subagent, tool en workflow, geen gedeelde service accounts
Least privilege per taak, niet per platform, een browser-agent krijgt geen shell-toegang "voor het geval dat"
Tool allowlists en deny-by-default execution, elke tool-call moet expliciet zijn toegestaan
Human approval gates voor irreversible of high-impact actions, geen agent die zelfstandig productie-infra wijzigt
Context isolation tussen user input, retrieved content, memory en system policy, vermeng geen vertrouwensdomeinen
Signed memory/provenance voor persistent state, elke memory-entry heeft origin, trust score, TTL en invalidation
Runtime policy engine vóór tool execution, niet achteraf monitoren, vooraf autoriseren
Full audit trail met replayable decision traces, als een agent iets doet, moet je kunnen reconstrueren waarom
Sandboxed execution voor code, shell, browser en file operations, containerschade, vertrouw niet op correctheid

Deze negen controls zijn niet theoretisch. Ze zijn de architecturale vertaling van de paper's conclusie dat agent security authority boundaries vereist, niet prompt boundaries.

De metric-kloof: wat we meten vs. wat we moeten meten

De paper's benchmark-analyse is confronterend. Attack Success Rate wordt 129 keer gerapporteerd. Utility: 22 keer. Latency: 8 keer. Cost: 7 keer.

Dimensie	Metrics
Security	Attack Success Rate, data exfiltration rate, unauthorized tool-call rate
Utility	Task completion rate, regression rate, refusal rate
Operations	Latency, token cost, tool-call overhead
State integrity	Memory poisoning persistence, contaminated recall rate
Governance	Audit completeness, policy decision explainability
Multi-agent	Propagation depth, blast radius, containment time

Zonder deze multidimensionale evaluatie meet je alleen of een systeem gebroken kan worden, niet of het bestuurbaar blijft onder realistische controls.

Strategische implicaties

Concrete implementatie-implicaties

Voor organisaties die nu al agentic workflows bouwen, of dat nou coding agents, RAG-pipelines, of multi-agent orchestration is, bevestigt dit paper vier ontwerpkeuzes:

Authority transition checks, security monitoring moet niet alleen health checks doen, maar ook controleren of tekst/state correct wordt vertaald naar actie. Elke overgang van interpretatie naar executie is een controlepunt.
Shared memory als mutable attack surface, memory entries hebben provenance, trust score, TTL en invalidation nodig. Gedeelde context tussen agents is geen neutraal doorgeefluik maar een primair beveiligingsoppervlak.
Blast-radius containment, subagents mogen niet automatisch elkaars output vertrouwen. Planner, executor, reviewer en memory-writer moeten gescheiden privileges hebben. Eén gecompromitteerde agent mag niet de hele workflow besmetten.
Discovery/planning-only gates, leer- en analyse-loops moeten strikt gescheiden blijven van mutating execution. Een agent die nieuwe informatie ontdekt of leert, mag niet in dezelfde privilege-context opereren als een agent die productie-wijzigingen doorvoert.

Deze vier principes zijn geen academische aanbevelingen, ze zijn de vertaling van 247 papers aan bewijs naar operationele architectuurregels.

Conclusie

8,5/10. Sterk als survey en conceptueel raamwerk. Geen implementatieblauwdruk, maar de uitstekende wetenschappelijke onderbouwing die een Agentic Zero Trust Operating Model nodig heeft.

Agentic AI security is een systeemarchitectuurprobleem - wat 247 papers ons leren

De lifecycle-framing: waarom prompt injection in agents fundamenteel anders is

Vier bijdragen die het veld definiëren

Drie aanvalsdynamieken die het spel veranderen

Defensies: nuttig, maar nog niet componeerbaar

Agentic Zero Trust: van paper naar reference architecture

De metric-kloof: wat we meten vs. wat we moeten meten

Strategische implicaties

Concrete implementatie-implicaties

Conclusie