Het woord 'sandbox' is in AI-governance een containerbegrip geworden. Organisaties zeggen "we testen onze AI in een sandbox" zoals ze vroeger zeiden "we hebben een firewall." Het klinkt geruststellend, maar het zegt een auditor niets. Een sandbox is niet waardevol omdat hij geïsoleerd is, hij is waardevol wanneer zijn grenzen het gegenereerde bewijs interpreteerbaar maken.

Een paper van Inderjeet Singh, Haitham Mahmoud en Andrés Murillo (Fujitsu Research of Europe) dat deze week op arXiv verscheen, maakt van die intuïtie een formeel raamwerk. AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework (50 pagina's, 8 figuren, 10 tabellen) is het eerste paper dat AI-sandboxes niet behandelt als implementatiedetail, maar als assurance-instrument, met een meetlat, een zwakste-schakelregel, en een cyberfysiek dreigingsmodel dat de sandbox zélf als aanvalsoppervlak beschouwt.

Wat is een AI-sandbox, formeel?

De auteurs definiëren een AI-sandbox als een bounded environment die isolatie, simulatie, instrumentatie, supervisie en evidence-capture combineert. Het is geen synoniem voor een Docker-container of een staging-omgeving. Het is een gecontroleerde testomgeving waarin je een AI-systeem, digitaal, embodied, of cyberfysiek, kunt evalueren, verifiëren en valideren met een claim over wat de resultaten betekenen voor productie.

Het paper maakt een scherp onderscheid tussen sandboxes en aangrenzende concepten:

Artefact	Definiërend kenmerk	Wat het niet is
Sandbox	Bounded environment met isolatie + instrumentatie	Geen productie-omgeving
Digital twin	State-synchronized representatie	Geen geïsoleerde testomgeving
Simulator	Model-gedreven wereldrepresentatie	Geen echte hardware-integratie
Test harness	Input/output validatie-raamwerk	Geen omgevingsisolatie
Regulatory sandbox	Juridische vrijstellingsruimte	Geen technisch testinstrument

De crux: een regulatory sandbox (zoals voorzien in EU AI Act Artikel 57) is een juridisch concept. Een AI-sandbox is een technisch instrument. De twee moeten samenkomen, maar dat gebeurt alleen als de technische sandbox meetbare assurance produceert.

De zes dimensies van sandbox-assurance

Het meetframework bestaat uit zes dimensies. Elke dimensie wordt gescoord op een schaal van Weak → Moderate → Strong, en de totaalscore wordt bepaald door de zwakste schakel.

Vier structurele kenmerken van doctrinal legal reasoning: Internalism, Normativity, Contestability, Coherence, en hoe EU-recht ze intensiveert

1. Fidelity, Hoe dicht ligt de sandbox bij de echte productie-omgeving? Dit omvat sensorruis, netwerklatentie, hardware-degradatie, en, voor cyberfysieke systemen, fysieke procesdynamica. Een sandbox met perfecte fidelity bestaat niet; de vraag is of de gap gedocumenteerd en gekwantificeerd is.

2. Controllability, Kun je systematisch edge cases, fouten en adversariële inputs injecteren? Een hoge controllability betekent dat je niet wacht tot het systeem toevallig faalt, maar faalcondities programmatisch kunt opwekken. Voor AI Act conformity assessment is dit essentieel: je moet kunnen aantonen dat je high-risk scenario's hebt getest, niet alleen happy paths.

3. Observability, Wat kun je meten binnen de sandbox? Dit gaat verder dan output logging. Het omvat interne toestandsregistratie, beslissingspaden, activatietraces, en, voor fysieke systemen, telemetrie van actuatoren en sensoren. Zonder observability is een sandbox een zwarte doos waar je alleen inputs in stopt en outputs uit haalt.

4. Containment, Welke risico's blijven binnen de sandbox? Dit is de klassieke security-vraag, maar het paper breidt hem uit naar cyberfysieke containment: kan een falende robotarm binnen de testkooi blijven? Kan een AI-gestuurde chemische reactor zijn reactieproducten isoleren? Containment is binaire assurance: óf het risico is geïsoleerd, óf de sandbox faalt in zijn primaire functie.

5. Reproducibility, Dezelfde input, dezelfde initiële condities → hetzelfde resultaat? Voor niet-deterministische systemen (LLM's, RL-agenten) is volledige reproduceerbaarheid onhaalbaar. Het paper introduceert statistische reproduceerbaarheid als alternatief: kun je de verdeling van uitkomsten consistent reproduceren over meerdere runs?

6. Governance artifacts, Produceert de sandbox een audit trail die een derde partij kan reviewen? Dit omvat immutable logs, signed evidence chains, testprotocollen, en, cruciaal, een traceerbare link tussen sandbox-resultaten en de conformity claim. Dit is de dimensie die een technische sandbox koppelt aan een regulatoire sandbox.

De zwakste-schakelregel

Het meest bruikbare concept in het paper is de weakest-link rule:

Een bounded deployment claim is hoogstens zo sterk als de zwakste dimensie in het sandbox-profiel.

Als je fidelity op Strong scoort, maar observability op Weak, dan is je claim Weak. Als je containment op Strong scoort, maar governance artifacts op Weak, dan heb je geen audit trail, en dus geen regulatoire assurance.

Dit is een harde correctie op de praktijk waarbij organisaties één dimensie optimaliseren (meestal fidelity, via een dure digital twin) en de andere vijf negeren. Een auditor die dit framework kent, vraagt niet "hebben jullie een sandbox?" maar "laat me jullie sandbox-profiel zien."

Drie case studies die het framework valideren

Het paper instantieert het framework op drie echte sandboxes:

CARLA Autonomous Driving Simulator, Een open-source simulator voor autonome voertuigen. Sterk op fidelity (Unreal Engine 5, physics-based rendering) en controllability (scenario-injectie via Python API). Zwak op containment (geen hardware-isolatie) en governance artifacts (geen gestandaardiseerde audit trail). Conclusie: geschikt voor perceptie-testen, ongeschikt voor safety-certificering.
Fujitsu AIoT Sandbox, Een cyberfysieke testomgeving voor AIoT-systemen met hardware-in-the-loop. Sterk op containment (fysieke testkooi + netwerkisolatie) en observability (volledige sensortelemetrie). Matig op fidelity (gesimplificeerde omgevingscondities). Dit is het dichtst bij een productieklare regulatoire sandbox.
Cyber-range voor AI-red-teaming, Een gesimuleerd enterprise-netwerk voor adversariële AI-testen. Sterk op controllability (geautomatiseerde attack-injectie) en reproducibility (snapshot/restore). Zwak op fidelity (gesimplificeerde netwerktopologie). Interessant voor BIO2/NIS2-compliance: je kunt aantonen dat je AI-systeem bestand is tegen bekende attack patterns.

Wat dit betekent voor EU AI Act compliance

De EU AI Act verplicht conformity assessment voor high-risk AI-systemen vanaf 2 augustus 2026. Artikel 9 vraagt om een risk management system. Artikel 15 vraagt om accuracy, robustness en cybersecurity. Artikel 17 vraagt om een quality management system.

Geen enkel artikel zegt "gebruik een sandbox." Maar elk artikel vraagt om bewijs, en bewijs komt uit testen. De vraag is niet óf je test, maar of je testresultaten interpreteerbaar zijn voor een notified body.

Het sandbox-meetframework van Singh et al. geeft conformity assessment teams een concrete checklist:

Fidelity: Is onze testomgeving representatief genoeg voor de productiecontext? Hebben we de gap gekwantificeerd?
Controllability: Hebben we systematisch edge cases en adversariële inputs getest, of alleen happy paths?
Observability: Kunnen we aantonen wat het systeem intern deed tijdens de test?
Containment: Zijn de risico's van het testen zelf geïsoleerd? (Denk aan een AI-gestuurde robot die tijdens het testen schade kan veroorzaken.)
Reproducibility: Kan een notified body onze testresultaten reproduceren?
Governance artifacts: Is er een immutable audit trail die de testresultaten koppelt aan de conformity claim?

Voor Nederlandse organisaties onder BIO2 en NIS2 komt daar een extra laag bij: de sandbox moet niet alleen AI-risico's isoleren, maar ook informatiebeveiligingsrisico's. Een AI-sandbox die productiedata gebruikt voor testen is een datalek-risico. Een AI-sandbox die connected is met productienetwerken is een lateraal-movement risico. Het dreigingsmodel in het paper behandelt deze cyberfysieke aanvalspaden expliciet.

Van metafoor naar meetinstrument

De belangrijkste bijdrage van dit paper is niet technisch, het is conceptueel. Het verplaatst 'AI sandbox' van een geruststellende metafoor naar een meetinstrument met een scorekaart.

Voor organisaties die zich voorbereiden op AI Act conformity assessment is de implicatie helder: "we testen in een sandbox" is geen geldig antwoord. Het juiste antwoord is: "dit is ons sandbox-profiel, fidelity Strong, controllability Moderate, observability Strong, containment Strong, reproducibility Weak (gecompenseerd door statistische reproduceerbaarheid), governance artifacts Moderate. Onze bounded deployment claim is daarmee Moderate, en hier is de audit trail die dat onderbouwt."

Dat is een antwoord waar een notified body iets mee kan.

Singh, I., Mahmoud, H., & Murillo, A. (2026). AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework. arXiv:2606.18532. 50 pagina's, 8 figuren, 10 tabellen.

Wat is een AI-sandbox, formeel?

Het paper maakt een scherp onderscheid tussen sandboxes en aangrenzende concepten:

Artefact	Definiërend kenmerk	Wat het niet is
Sandbox	Bounded environment met isolatie + instrumentatie	Geen productie-omgeving
Digital twin	State-synchronized representatie	Geen geïsoleerde testomgeving
Simulator	Model-gedreven wereldrepresentatie	Geen echte hardware-integratie
Test harness	Input/output validatie-raamwerk	Geen omgevingsisolatie
Regulatory sandbox	Juridische vrijstellingsruimte	Geen technisch testinstrument

De zes dimensies van sandbox-assurance

Het meetframework bestaat uit zes dimensies. Elke dimensie wordt gescoord op een schaal van Weak → Moderate → Strong, en de totaalscore wordt bepaald door de zwakste schakel.

De zwakste-schakelregel

Het meest bruikbare concept in het paper is de weakest-link rule:

Een bounded deployment claim is hoogstens zo sterk als de zwakste dimensie in het sandbox-profiel.

Drie case studies die het framework valideren

Het paper instantieert het framework op drie echte sandboxes:

CARLA Autonomous Driving Simulator, Een open-source simulator voor autonome voertuigen. Sterk op fidelity (Unreal Engine 5, physics-based rendering) en controllability (scenario-injectie via Python API). Zwak op containment (geen hardware-isolatie) en governance artifacts (geen gestandaardiseerde audit trail). Conclusie: geschikt voor perceptie-testen, ongeschikt voor safety-certificering.
Fujitsu AIoT Sandbox, Een cyberfysieke testomgeving voor AIoT-systemen met hardware-in-the-loop. Sterk op containment (fysieke testkooi + netwerkisolatie) en observability (volledige sensortelemetrie). Matig op fidelity (gesimplificeerde omgevingscondities). Dit is het dichtst bij een productieklare regulatoire sandbox.
Cyber-range voor AI-red-teaming, Een gesimuleerd enterprise-netwerk voor adversariële AI-testen. Sterk op controllability (geautomatiseerde attack-injectie) en reproducibility (snapshot/restore). Zwak op fidelity (gesimplificeerde netwerktopologie). Interessant voor BIO2/NIS2-compliance: je kunt aantonen dat je AI-systeem bestand is tegen bekende attack patterns.

Wat dit betekent voor EU AI Act compliance

Het sandbox-meetframework van Singh et al. geeft conformity assessment teams een concrete checklist:

Fidelity: Is onze testomgeving representatief genoeg voor de productiecontext? Hebben we de gap gekwantificeerd?
Controllability: Hebben we systematisch edge cases en adversariële inputs getest, of alleen happy paths?
Observability: Kunnen we aantonen wat het systeem intern deed tijdens de test?
Containment: Zijn de risico's van het testen zelf geïsoleerd? (Denk aan een AI-gestuurde robot die tijdens het testen schade kan veroorzaken.)
Reproducibility: Kan een notified body onze testresultaten reproduceren?
Governance artifacts: Is er een immutable audit trail die de testresultaten koppelt aan de conformity claim?

Van metafoor naar meetinstrument

De belangrijkste bijdrage van dit paper is niet technisch, het is conceptueel. Het verplaatst 'AI sandbox' van een geruststellende metafoor naar een meetinstrument met een scorekaart.

Dat is een antwoord waar een notified body iets mee kan.

Singh, I., Mahmoud, H., & Murillo, A. (2026). AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework. arXiv:2606.18532. 50 pagina's, 8 figuren, 10 tabellen.

AI-sandboxes zijn niet langer een metafoor - ze zijn een meetinstrument

Wat is een AI-sandbox, formeel?

De zes dimensies van sandbox-assurance

De zwakste-schakelregel

Drie case studies die het framework valideren

Wat dit betekent voor EU AI Act compliance

Van metafoor naar meetinstrument