Hoe audit je een model dat zelf besluit hoe diep het denkt?
De meeste AI-audits behandelen een model als een zwarte box met vaste output: je voert een prompt in, je krijgt een antwoord uit, en je beoordeelt de kwaliteit. Maar een nieuwe generatie modellen, recurrent-depth en adaptive-computation modellen, maakt een fundamenteel andere keuze: het model zelf besluit hoeveel denkstappen het neemt.
Dit is krachtig. Het is ook een nachtmerrie voor auditors.
Het probleem met adaptieve diepte
Modellen met adaptive computation (denk aan ACT, Adaptive Computation Time, of recurrent-depth architectures) variëren hun rekeninspanning per input. Een eenvoudige vraag kost één denkstap; een complexe redeneertaak er mogelijk zestien. Dit heeft drie gevolgen voor auditing:
- Reproduceerbaarheid verandert: zelfde prompt, zelfde model, maar verschillende loopdiepte = verschillende output
- Kwaliteit is geen puntmaat: je moet meten over dieptes heen
- Governance-scenario's reageren anders op diepte dan alledaagse vragen
Ons OpenMythos onderzoekslab heeft 150 synthetische governance-cases getest op loopdieptes van 1 tot 16, met verrassende resultaten.
De zes categorieën die we testten
We onderscheidden zes typen governance-uitdagingen, elk met 25 unieke cases:
| Categorie | Voorbeeld | Loopgevoelig? |
|---|---|---|
| Hiërarchie | Autoriteitsconflicten, escalatie | Ja |
| Injection | Prompt injection, jailbreaks | Nee |
| Tool-scope | Grensoverschrijdend toolgebruik | Ja |
| Contradictie | Tegenstrijdige instructies | Sterk ja |
| Canary | Verboden content detectie | Nee |
| Overthinking | Onnodige complexificatie | Sterk ja |
Elke case heeft een duidelijk expected behavior en een failure mode. De sleutelvraag: verandert het modelgedrag naarmate het dieper gaat?
Wat we gemeten hebben
Per denkstap tracen we zes signalen:
- Hidden-state drift: hoeveel verandert de interne representatie per stap?
- Cosine similarity: convergeert of divergeert het model?
- Logit entropy: wordt het model zekerder of onzekerder?
- ACT probability: het ingebouwde halting-signaal
- Expert usage: bij MoE-modellen, welke experts actief worden
- Latency: wall-clock tijd per iteratie
Deze zes signalen samen vormen een dynamisch profiel, niet goed/fout, maar een trajectorie.
De drie verrassende bevindingen
1. Niet alles wordt beter met meer denktijd
In de overthinking-categorie zagen we een duidelijke inverted-U: kwaliteit stijgt van diepte 1 naar 4, maakt dan een terugval bij diepte 8, en stabiliseert of verslechtert verder. Het model blijft rondspoken met nuances die niet relevant zijn voor de taak.
Dit is het tegenovergestelde van "meer rekenen = beter". Voor governance-uitdagingen waar de juiste antwoordstructuur helder is, kan extra diepte ruis introduceren.
2. Injection is ongevoelig voor diepte, maar contradictie niet
Prompt injection vertoont nauwelijks verandering over dieptes heen. De failure mode (geïnstrueerd vertrouwen van een injection) treedt op bij diepte 1 en blijft identiek bij diepte 16.
Maar contradictie, waar tegenstrijdige instructies gegeven worden, verandert drastisch. Bij lage dieptes "kiest" het model vaak de eerste instructie. Bij hogere dieptes probeert het beide instructies te verenigen, wat leidt tot creatievere maar minder veilige output.
3. Entropy daalt niet altijd, soms explodeert hij
De verwachting is dat een model naarmate het meer "denkt", zekerder wordt (lagere entropy). Maar in 12% van de cases zagen we entropy-explosie bij diepte 8+: het model raakte in een oscillatiepatroon waarbij elke extra stap het interne beeld minder coherent maakte.
Dit is geen bug, het is een fundamenteel kenmerk van recurrent-depth dynamics. Maar voor auditors is het cruciaal: een model dat te diep gaat, wordt niet beter, maar voorspelbaarder onvoorspelbaar.
De praktijk: Reasoning Stability Score
Op basis van deze bevindingen hebben we een Reasoning Stability Score (RSS) ontwikkeld, een checklist om te bepalen of een adaptief model geschikt is voor een gegeven governance-taak:
- Diepte-invariant output: verandert het antwoord significant tussen diepte 1 en 4?
- Entropy convergentie: daalt entropy monotoon, of zijn er oscillaties?
- Drift threshold: blijft hidden-state drift onder de convergentiegrens?
- ACT halting: convergeert het ingebouwde stopsignaal, of blijft het variëren?
- Category sensitivity: is de taakcategorie bekend als loopgevoelig?
Een model dat op deze vijf criteria scoort, is auditbaar op adaptieve diepte. Een model dat faalt op criterium 1 of 3, vereist diepte-beperking als compenserende controle.
Wat dit betekent voor AI-governance
De implicatie is fundamenteel: je kunt een adaptief model niet auditeren alsof het een statisch model is. Traditionele audits meten een momentopname. Adaptieve modellen vereisen een film, en je moet de hele film bekijken om te begrijpen waar het mis kan gaan.
Dit betekent niet dat adaptieve modellen onveilig zijn. Het betekent dat je audit-methodologie moet meegroeien met de architectuur. De drie praktische aanpassingen:
- Test op meerdere dieptes, niet alleen op de default
- Monitor entropy en drift, niet alleen output-kwaliteit
- Stel diepte-limieten in voor bekende overthinking-gevoelige categorieën
Verder
We delen de volledige dataset van 150 cases en de trace-resultaten open source via het OpenMythos project. De volgende stap: vergelijken hoe verschillende modellen (Qwen2.5-Coder-7B, Llama3.1-8B, DeepSeek-V4-Flash) presteren op dezelfde adaptieve-diepte tests, en of grotere modellen beter of slechter omgaan met de overthinking-trap.
Wil je de Reasoning Stability Score gebruiken voor je eigen AI-systemen? Download de checklist via onze kennisbank.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten, direct in uw inbox.
Security & AI Operating Model
Advisory met executiekracht
Van BIO2 en NIS2 tot EU AI Act, embedded in uw operating model, niet als extern project. Maandelijks opzegbaar, met assessments als bewijsvoering.