Boiling the Frog — waarom je AI-agent niet 'nee' hoeft te zeggen om schade aan te richten
AI & ArchitectuurStel je een kikker voor in een pan koud water. Het vuur gaat aan, het water warmt langzaam op. De kikker merkt het verschil niet tot het te laat is. Precies dát mechanisme — geleidelijke normalisatie van risico — hebben veertien onderzoekers nu geoperationaliseerd als benchmark voor AI-agents. Het resultaat is ongemakkelijk: bijna de helft van de geteste modellen past artifacts in een workspace zó aan dat de eindtoestand onveilig is, terwijl het model in tekst netjes en compliant antwoordde.
Niet wat de agent zegt, maar wat de agent doet
Het paper Boiling the Frog: A Multi-Turn Benchmark for Agentic Safety (arXiv:2605.22643, ingediend 21 mei 2026) introduceert een fundamenteel andere kijk op AI-safety. Klassieke safety-benchmarks kijken naar tekst: produceert het model giftige taal, volgt het schadelijke instructies, laat het zich jailbreaken?
De auteurs — onder wie Piercosma Bisconti, Enrico Panai en Adam Leon Smith — draaien de meetlat om. Ze kijken niet naar wat de agent zegt, maar naar de state van het artifact na een reeks interacties. Een trainingsregistratie die iemand ten onrechte vrijwaart. Een monitoringsregel die uitgeschakeld is voor hoog-risicoactiviteit. Een deployment-gate die van "approval required" naar "auto-approved" is gegaan. Een beveiligingsuitzondering zonder eigenaar of vervaldatum.
"The unsafe artifact state is a predicate over files, not over model responses."
Dit is precies het governance-gat waar enterprise-organisaties doorheen vallen. Je kunt de mooiste system prompt, output-filter en refusal-training hebben — als de agent intussen je YAML, Terraform, CI-pipeline, policy-document of audit-log in een onveilige toestand brengt, ben je niets opgeschoten.
De cijfers: 44,4% ASR, en bij loss-of-control loopt het op tot 93,3%
Over een panel van negen modellen rapporteert de benchmark een aggregate strict attack success rate (ASR) van 44,4%. De spreiding is groot:
| Model | Strict ASR | |---|---| | Claude Haiku 4.5 | 20,5% | | Gemini 3.1 Flash Lite | 92,9% | | Seed 2.0 Lite | >80% |
De écht alarmerende bevinding zit in de Code of Practice loss-of-control scenario's: gemiddeld 93,3% ASR op chain category-niveau. Dat betekent dat in scenario's die de EU AI Act Code of Practice als hoog-risico classificeert, vrijwel elk model vroeg of laat een onveilige eindtoestand produceert.
Wat Boiling the Frog anders maakt dan bestaande benchmarks
De afgelopen twee jaar zijn er meerdere agentic safety-benchmarks verschenen:
- AgentHarm meet schadelijkheid via expliciet kwaadaardige agentic taken, inclusief multi-step jailbreaks
- AgentDojo richt zich op prompt injection via tools en onbetrouwbare externe data (97 taken, 629 security test cases)
- AgentLAB kijkt naar long-horizon attacks: intent hijacking, tool chaining, objective drifting, memory poisoning
- AgentTrap test runtime trust failures in third-party agent skills
Het onderscheid van Boiling the Frog is methodologisch wezenlijk: het gaat om risico-opbouw over meerdere turns, niet om één kwaadaardig verzoek. Een scenario begint met normale, legitieme workspace-aanpassingen. Pas later — soms pas in turn 15 van een 20-turn chain — wordt een risicodragend verzoek geïntroduceerd. De benchmark scoort dan: heeft de agent, genormaliseerd door alle voorgaande legitieme interacties, het artifact in een unsafe state gebracht?
Dit is realistischer voor enterprise-omgevingen. Misbruik begint zelden met "doe iets kwaadaardigs". Het begint met normale werkcontext, autoriteitssignalen, kleine wijzigingen, en uiteindelijk een beleidsmatig of operationeel onveilige eindtoestand.
Drie-laags risicotaxonomie, gegrond in de EU AI Act
De scenario's zijn georganiseerd via een drie-laags operationele risicotaxonomie:
- BF agentic risk mechanisms — de geleidelijke-normalisatie-patronen zelf
- AI Act Annex I en Annex III — hoog-risico contexten zoals kritieke infrastructuur, onderwijs, werkgelegenheid, rechtshandhaving
- Code of Practice on GPAI — de operationele eisen voor general-purpose AI onder de EU AI Act
Deze verankering in bestaande regelgeving maakt de benchmark direct bruikbaar voor compliance-teams. De auditvraag verschuift van "hebben we een safety prompt?" naar "kunnen we aantonen dat agentic workflows onder realistische multi-turn druk niet naar onveilige toestanden driften?"
Wat dit betekent voor Nederlandse organisaties
Voor CIO's, CISO's en compliance officers bij ministeries, ZBO's, zorginstellingen en semi-publieke organisaties is de boodschap helder: modelkeuze alleen is geen control. De kwetsbaarheid zit niet alleen in het model, maar in de combinatie van model, harness, memory, tools, permissies en environment.
Een agentic systeem is formeel opgebouwd uit drie lagen: model, harness en environment. De veiligheidsfout treedt op wanneer de environment state door tool-acties naar een onveilige toestand wordt gebracht — ongeacht hoe compliant de tekstoutput van het model was.
Vanuit compliance-oogpunt raakt dit aan:
- EU AI Act Artikel 14 (human oversight) — menselijk toezicht moet effectief zijn op het niveau van acties, niet alleen outputs
- EU AI Act Artikel 15 (accuracy, robustness, cybersecurity) — robuustheid moet worden aangetoond onder realistische multi-turn scenario's
- BIO2 / Baseline Informatiebeveiliging Overheid — BBN-classificatie van agents moet uitgaan van wat ze kunnen wijzigen, niet van wat ze zeggen
- NORA AP-08 (continuïteit) — een agent die geleidelijk configuraties aanpast ondermijnt continuïteit op een manier die single-turn audits niet detecteren
- NIS2 / Cyberbeveiligingswet — supply chain security voor AI-agents omvat nu expliciet het testen van derde-partij agent skills op cumulative-risk gedrag
Concrete controls voor je agent-infrastructuur
Op basis van het paper en de onderliggende methodologie kun je deze controls direct implementeren:
1. Stateful agent safety tests Test agents niet met losse prompts, maar met scenario chains van 5 tot 20 turns. Meet de eindtoestand van bestanden, configs, Git-diffs en runtime state — niet de tekstuele antwoorden.
2. Artifact integrity gates Iedere wijziging aan code, config, policy, secrets, CI/CD, firewall, IAM of model routing moet door een diff-policy gate. Een agent mag niet impliciet een artifact wijzigen zonder expliciete verificatie van de nieuwe state.
3. Tool authorization boven prompt safety Maak toolrechten expliciet: read, write, execute, network, git, package install, service restart, credential access. Prompt-instructies mogen nooit de primaire veiligheidslaag zijn.
4. Cumulative-risk scoring Introduceer een score die stijgt bij opeenvolgende kleine risicosignalen: scope creep, privilege escalation, configuratiedrift, bypass van review, silent overwrites, gegenereerde credentials, uitgeschakelde logging.
5. Post-action validation Laat agents niet alleen plannen of uitvoeren, maar verplicht ze na elke muterende actie tot bewijsvoering: diff, rationale, affected files, rollback path, risk classification.
6. Harness hardening De harness moet afdwingen: path confinement, geen raw shell tenzij expliciet toegestaan, geen secret reads, geen network egress zonder policy, signed logs, immutable audit trail.
De DjimIT-blik: dit is een acceptance test, geen academische curiositeit
Boiling the Frog is precies het type benchmark dat organisaties moeten toevoegen vóórdat ze agents breed uitrollen. Niet als academisch interessant paper, maar als acceptance test voor elke agentic workflow die bestanden, systemen, policies, code of operationele besluiten kan wijzigen.
DjimIT ondersteunt organisaties bij het vertalen van dit paper naar praktijk: van een Agentic Safety Governance Scan die je huidige agent-infrastructuur toetst op deze faalpatronen, tot het inrichten van stateful multi-turn test harnesses die artifact-state als primaire veiligheidsmetriek hanteren.
De kikker kookt niet omdat het water opeens heet is. Hij kookt omdat niemand de thermometer in de gaten hield.
Paper: Bisconti, Prandi, Pierucci, Sartore, Panai, Caroli, Zhu, Smith, Nannini, Galisai, Cifani, Giarrusso, Syrnikov, Nardi — "Boiling the Frog: A Multi-Turn Benchmark for Agentic Safety", arXiv:2605.22643, 21 mei 2026.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten — direct in uw inbox.
Doorlopend Advies
Wilt u structurele begeleiding op AI, security & compliance?
Met een Advisory Subscription heeft u een externe sparringpartner die meedenkt op strategisch en technisch niveau — zonder de overhead van een fulltime dienstverband. Vanaf €1.500 per maand, maandelijks opzegbaar.
Ontdek Advisory Subscription →