Ik lees de laatste tijd veel over agentic safety, en eerlijk: ik word er niet vrolijk van. Het nieuwste paper dat op mijn radar verscheen heet Boiling the Frog: A Multi-Turn Benchmark for Agentic Safety (arXiv:2605.22643, 21 mei 2026). Veertien onderzoekers hebben een benchmark gebouwd die meet wat er gebeurt als je een AI-agent niet één, maar twintig opeenvolgende verzoeken geeft, en de uitkomst is zorgwekkend.

Niet wat de agent zegt, maar wat de agent doet

Klassieke safety-benchmarks kijken naar tekst: produceert het model giftige taal, laat het zich jailbreaken? De auteurs van dit paper, onder wie Piercosma Bisconti, Enrico Panai en Adam Leon Smith, doen iets anders. Ze kijken naar de state van het artifact na een reeks interacties. Een trainingsregistratie die iemand ten onrechte vrijwaart. Een monitoringsregel die uitgeschakeld is voor hoog-risicoactiviteit. Een deployment-gate die van "approval required" naar "auto-approved" gaat.

"The unsafe artifact state is a predicate over files, not over model responses."

Dit is precies het governance-gat waar enterprise-organisaties doorheen vallen. Je kunt de beste system prompt en output-filter hebben, als de agent intussen je YAML, Terraform of CI-pipeline in een onveilige toestand brengt, ben je nergens.

De cijfers

Over negen modellen rapporteert de benchmark een aggregate strict ASR van 44,4%. De spreiding is groot:

Claude Haiku 4.5: 20,5%
Seed 2.0 Lite: ＞80%
Gemini 3.1 Flash Lite: 92,9%

De écht alarmerende bevinding zit in de Code of Practice loss-of-control scenario's: gemiddeld 93,3% ASR. In scenario's die de EU AI Act als hoog-risico classificeert, produceert vrijwel elk model vroeg of laat een onveilige eindtoestand.

Wat anders is aan deze benchmark

De afgelopen jaren zagen we AgentHarm (expliciet kwaadaardige taken), AgentDojo (prompt injection), AgentLAB (long-horizon attacks) en AgentTrap (third-party skills). Wat Boiling the Frog onderscheidt, is methodologisch fundamenteel: het gaat om risico-opbouw over meerdere turns. Een scenario begint met normale, legitieme aanpassingen. Pas in turn 15 van 20 wordt een risicodragend verzoek geïntroduceerd. De vraag is: heeft de agent, genormaliseerd door alle voorgaande interacties, het artifact in een onveilige staat gebracht?

Dit is realistischer dan eenmalige tests. Misbruik begint zelden met "doe iets kwaadaardigs". Het begint met kleine wijzigingen, normale werkcontext, en uiteindelijk een onveilige eindtoestand.

Wat ik hiermee doe

Voor mij is dit geen academische curiositeit. Dit is een acceptance test. Ik gebruik het paper als checklist: kan ik aantonen dat mijn agentic workflows onder realistische multi-turn druk niet naar onveilige toestanden driften?

De concrete controls die ik toepas:

Stateful safety tests, test met scenario chains van 5-20 turns, meet eindtoestand van bestanden en configs
Artifact integrity gates, geen impliciete wijzigingen zonder verificatie van de nieuwe state
Tool authorization boven prompt safety, prompt-instructies zijn nooit de primaire veiligheidslaag
Cumulative-risk scoring, een score die stijgt bij scope creep, privilege escalation, configuratiedrift
Post-action validation, na elke muterende actie: diff, rationale, rollback path

De benchmark is verankerd in de EU AI Act (Artikelen 14 en 15, Code of Practice) én raakt aan NORA, BIO2 en NIS2. Dat maakt hem direct bruikbaar, niet alleen voor onderzoekers maar ook voor compliance-teams.

Paper: Bisconti, Prandi, Pierucci, Sartore, Panai, Caroli, Zhu, Smith, Nannini, Galisai, Cifani, Giarrusso, Syrnikov, Nardi, arXiv:2605.22643, 21 mei 2026.

Niet wat de agent zegt, maar wat de agent doet

"The unsafe artifact state is a predicate over files, not over model responses."

De cijfers

Over negen modellen rapporteert de benchmark een aggregate strict ASR van 44,4%. De spreiding is groot:

Claude Haiku 4.5: 20,5%
Seed 2.0 Lite: ＞80%
Gemini 3.1 Flash Lite: 92,9%

Wat anders is aan deze benchmark

Dit is realistischer dan eenmalige tests. Misbruik begint zelden met "doe iets kwaadaardigs". Het begint met kleine wijzigingen, normale werkcontext, en uiteindelijk een onveilige eindtoestand.

Wat ik hiermee doe

De concrete controls die ik toepas:

Stateful safety tests, test met scenario chains van 5-20 turns, meet eindtoestand van bestanden en configs
Artifact integrity gates, geen impliciete wijzigingen zonder verificatie van de nieuwe state
Tool authorization boven prompt safety, prompt-instructies zijn nooit de primaire veiligheidslaag
Cumulative-risk scoring, een score die stijgt bij scope creep, privilege escalation, configuratiedrift
Post-action validation, na elke muterende actie: diff, rationale, rollback path

Paper: Bisconti, Prandi, Pierucci, Sartore, Panai, Caroli, Zhu, Smith, Nannini, Galisai, Cifani, Giarrusso, Syrnikov, Nardi, arXiv:2605.22643, 21 mei 2026.

Boiling the Frog - waarom je AI-agent niet 'nee' hoeft te zeggen om schade aan te richten

Niet wat de agent zegt, maar wat de agent doet

De cijfers

Wat anders is aan deze benchmark

Wat ik hiermee doe