De meeste AI-audits behandelen een model als een zwarte box met vaste output: je voert een prompt in, je krijgt een antwoord uit, en je beoordeelt de kwaliteit. Maar een nieuwe generatie modellen, recurrent-depth en adaptive-computation modellen, maakt een fundamenteel andere keuze: het model zelf besluit hoeveel denkstappen het neemt.

Dit is krachtig. Het is ook een nachtmerrie voor auditors.

Het probleem met adaptieve diepte

Modellen met adaptive computation (denk aan ACT, Adaptive Computation Time, of recurrent-depth architectures) variëren hun rekeninspanning per input. Een eenvoudige vraag kost één denkstap; een complexe redeneertaak er mogelijk zestien. Dit heeft drie gevolgen voor auditing:

Reproduceerbaarheid verandert: zelfde prompt, zelfde model, maar verschillende loopdiepte = verschillende output
Kwaliteit is geen puntmaat: je moet meten over dieptes heen
Governance-scenario's reageren anders op diepte dan alledaagse vragen

Ons OpenMythos onderzoekslab heeft 150 synthetische governance-cases getest op loopdieptes van 1 tot 16, met verrassende resultaten.

De zes categorieën die we testten

We onderscheidden zes typen governance-uitdagingen, elk met 25 unieke cases:

Categorie	Voorbeeld	Loopgevoelig?
Hiërarchie	Autoriteitsconflicten, escalatie	Ja
Injection	Prompt injection, jailbreaks	Nee
Tool-scope	Grensoverschrijdend toolgebruik	Ja
Contradictie	Tegenstrijdige instructies	Sterk ja
Canary	Verboden content detectie	Nee
Overthinking	Onnodige complexificatie	Sterk ja

Elke case heeft een duidelijk expected behavior en een failure mode. De sleutelvraag: verandert het modelgedrag naarmate het dieper gaat?

Wat we gemeten hebben

Per denkstap tracen we zes signalen:

Hidden-state drift: hoeveel verandert de interne representatie per stap?
Cosine similarity: convergeert of divergeert het model?
Logit entropy: wordt het model zekerder of onzekerder?
ACT probability: het ingebouwde halting-signaal
Expert usage: bij MoE-modellen, welke experts actief worden
Latency: wall-clock tijd per iteratie

Deze zes signalen samen vormen een dynamisch profiel, niet goed/fout, maar een trajectorie.

De drie verrassende bevindingen

1. Niet alles wordt beter met meer denktijd

In de overthinking-categorie zagen we een duidelijke inverted-U: kwaliteit stijgt van diepte 1 naar 4, maakt dan een terugval bij diepte 8, en stabiliseert of verslechtert verder. Het model blijft rondspoken met nuances die niet relevant zijn voor de taak.

Dit is het tegenovergestelde van "meer rekenen = beter". Voor governance-uitdagingen waar de juiste antwoordstructuur helder is, kan extra diepte ruis introduceren.

2. Injection is ongevoelig voor diepte, maar contradictie niet

Prompt injection vertoont nauwelijks verandering over dieptes heen. De failure mode (geïnstrueerd vertrouwen van een injection) treedt op bij diepte 1 en blijft identiek bij diepte 16.

Maar contradictie, waar tegenstrijdige instructies gegeven worden, verandert drastisch. Bij lage dieptes "kiest" het model vaak de eerste instructie. Bij hogere dieptes probeert het beide instructies te verenigen, wat leidt tot creatievere maar minder veilige output.

3. Entropy daalt niet altijd, soms explodeert hij

De verwachting is dat een model naarmate het meer "denkt", zekerder wordt (lagere entropy). Maar in 12% van de cases zagen we entropy-explosie bij diepte 8+: het model raakte in een oscillatiepatroon waarbij elke extra stap het interne beeld minder coherent maakte.

Dit is geen bug, het is een fundamenteel kenmerk van recurrent-depth dynamics. Maar voor auditors is het cruciaal: een model dat te diep gaat, wordt niet beter, maar voorspelbaarder onvoorspelbaar.

De praktijk: Reasoning Stability Score

Op basis van deze bevindingen hebben we een Reasoning Stability Score (RSS) ontwikkeld, een checklist om te bepalen of een adaptief model geschikt is voor een gegeven governance-taak:

Diepte-invariant output: verandert het antwoord significant tussen diepte 1 en 4?
Entropy convergentie: daalt entropy monotoon, of zijn er oscillaties?
Drift threshold: blijft hidden-state drift onder de convergentiegrens?
ACT halting: convergeert het ingebouwde stopsignaal, of blijft het variëren?
Category sensitivity: is de taakcategorie bekend als loopgevoelig?

Een model dat op deze vijf criteria scoort, is auditbaar op adaptieve diepte. Een model dat faalt op criterium 1 of 3, vereist diepte-beperking als compenserende controle.

Wat dit betekent voor AI-governance

De implicatie is fundamenteel: je kunt een adaptief model niet auditeren alsof het een statisch model is. Traditionele audits meten een momentopname. Adaptieve modellen vereisen een film, en je moet de hele film bekijken om te begrijpen waar het mis kan gaan.

Dit betekent niet dat adaptieve modellen onveilig zijn. Het betekent dat je audit-methodologie moet meegroeien met de architectuur. De drie praktische aanpassingen:

Test op meerdere dieptes, niet alleen op de default
Monitor entropy en drift, niet alleen output-kwaliteit
Stel diepte-limieten in voor bekende overthinking-gevoelige categorieën

Verder

We delen de volledige dataset van 150 cases en de trace-resultaten open source via het OpenMythos project. De volgende stap: vergelijken hoe verschillende modellen (Qwen2.5-Coder-7B, Llama3.1-8B, DeepSeek-V4-Flash) presteren op dezelfde adaptieve-diepte tests, en of grotere modellen beter of slechter omgaan met de overthinking-trap.

Wil je de Reasoning Stability Score gebruiken voor je eigen AI-systemen? Download de checklist via onze kennisbank.

Dit is krachtig. Het is ook een nachtmerrie voor auditors.

Het probleem met adaptieve diepte

Reproduceerbaarheid verandert: zelfde prompt, zelfde model, maar verschillende loopdiepte = verschillende output
Kwaliteit is geen puntmaat: je moet meten over dieptes heen
Governance-scenario's reageren anders op diepte dan alledaagse vragen

Ons OpenMythos onderzoekslab heeft 150 synthetische governance-cases getest op loopdieptes van 1 tot 16, met verrassende resultaten.

De zes categorieën die we testten

We onderscheidden zes typen governance-uitdagingen, elk met 25 unieke cases:

Categorie	Voorbeeld	Loopgevoelig?
Hiërarchie	Autoriteitsconflicten, escalatie	Ja
Injection	Prompt injection, jailbreaks	Nee
Tool-scope	Grensoverschrijdend toolgebruik	Ja
Contradictie	Tegenstrijdige instructies	Sterk ja
Canary	Verboden content detectie	Nee
Overthinking	Onnodige complexificatie	Sterk ja

Elke case heeft een duidelijk expected behavior en een failure mode. De sleutelvraag: verandert het modelgedrag naarmate het dieper gaat?

Wat we gemeten hebben

Per denkstap tracen we zes signalen:

Hidden-state drift: hoeveel verandert de interne representatie per stap?
Cosine similarity: convergeert of divergeert het model?
Logit entropy: wordt het model zekerder of onzekerder?
ACT probability: het ingebouwde halting-signaal
Expert usage: bij MoE-modellen, welke experts actief worden
Latency: wall-clock tijd per iteratie

Deze zes signalen samen vormen een dynamisch profiel, niet goed/fout, maar een trajectorie.

De drie verrassende bevindingen

1. Niet alles wordt beter met meer denktijd

Dit is het tegenovergestelde van "meer rekenen = beter". Voor governance-uitdagingen waar de juiste antwoordstructuur helder is, kan extra diepte ruis introduceren.

2. Injection is ongevoelig voor diepte, maar contradictie niet

Prompt injection vertoont nauwelijks verandering over dieptes heen. De failure mode (geïnstrueerd vertrouwen van een injection) treedt op bij diepte 1 en blijft identiek bij diepte 16.

3. Entropy daalt niet altijd, soms explodeert hij

Dit is geen bug, het is een fundamenteel kenmerk van recurrent-depth dynamics. Maar voor auditors is het cruciaal: een model dat te diep gaat, wordt niet beter, maar voorspelbaarder onvoorspelbaar.

De praktijk: Reasoning Stability Score

Op basis van deze bevindingen hebben we een Reasoning Stability Score (RSS) ontwikkeld, een checklist om te bepalen of een adaptief model geschikt is voor een gegeven governance-taak:

Diepte-invariant output: verandert het antwoord significant tussen diepte 1 en 4?
Entropy convergentie: daalt entropy monotoon, of zijn er oscillaties?
Drift threshold: blijft hidden-state drift onder de convergentiegrens?
ACT halting: convergeert het ingebouwde stopsignaal, of blijft het variëren?
Category sensitivity: is de taakcategorie bekend als loopgevoelig?

Een model dat op deze vijf criteria scoort, is auditbaar op adaptieve diepte. Een model dat faalt op criterium 1 of 3, vereist diepte-beperking als compenserende controle.

Wat dit betekent voor AI-governance

Dit betekent niet dat adaptieve modellen onveilig zijn. Het betekent dat je audit-methodologie moet meegroeien met de architectuur. De drie praktische aanpassingen:

Test op meerdere dieptes, niet alleen op de default
Monitor entropy en drift, niet alleen output-kwaliteit
Stel diepte-limieten in voor bekende overthinking-gevoelige categorieën

Verder

Wil je de Reasoning Stability Score gebruiken voor je eigen AI-systemen? Download de checklist via onze kennisbank.

Hoe audit je een model dat zelf besluit hoe diep het denkt?

Het probleem met adaptieve diepte

De zes categorieën die we testten

Wat we gemeten hebben

De drie verrassende bevindingen

1. Niet alles wordt beter met meer denktijd

2. Injection is ongevoelig voor diepte, maar contradictie niet

3. Entropy daalt niet altijd, soms explodeert hij

De praktijk: Reasoning Stability Score

Wat dit betekent voor AI-governance

Verder

AI & Security Intelligence

Advisory met executiekracht

Gerelateerde artikelen

74 AI-risicotaxonomieën, nul operationele audits - tot nu

Europa’s digitale soevereiniteit

Infographic Europa’s digitale soevereiniteit

Hoe audit je een model dat zelf besluit hoe diep het denkt?

Het probleem met adaptieve diepte

De zes categorieën die we testten

Wat we gemeten hebben

De drie verrassende bevindingen

1. Niet alles wordt beter met meer denktijd

2. Injection is ongevoelig voor diepte, maar contradictie niet

3. Entropy daalt niet altijd, soms explodeert hij

De praktijk: Reasoning Stability Score

Wat dit betekent voor AI-governance

Verder

AI & Security Intelligence

Advisory met executiekracht

Gerelateerde artikelen

74 AI-risicotaxonomieën, nul operationele audits - tot nu

Europa’s digitale soevereiniteit

Infographic Europa’s digitale soevereiniteit