Ik zat afgelopen weekend met een bak koffie de vijf nieuwe DeepSeek-papers door te nemen, en halverwege viel het kwartje. Dit gaat niet over betere benchmarks. Dit gaat over een fundamenteel andere manier van denken over AI-architectuur.

De papers verschenen in mei 2026, maar het verhaal dat ze samen vertellen is groter dan DeepSeek alleen. De rode draad: frontier performance verschuift van brute-force parameterschaling naar system-level sparsity engineering. Voor organisaties die AI serieus inzetten, verandert daarmee de vraag, niet "welk model is beter?" maar "hoe bouw ik een harness die context, geheugen, sandboxing, routing en governance orkestreert?"

De evolutieketen in één oogopslag

Paper	Innovatie	Strategische betekenis
DeepSeek-V2 (mei '24)	MLA + DeepSeekMoE	Efficiënte sparse inference, minder rekenen per token, minder geheugen per contextvenster
DeepSeek-V3.2 (dec '25)	DSA + agentic post-training	Open modellen worden serieus voor code agents, tool-use en reasoning
mHC (dec '25)	Constrained hyper-connections	Stabielere diepe netwerken door identiteit-mapping te herstellen
Engram (jan '26)	Conditional memory via O(1)-lookup	Nieuwe sparsity-as: niet alleen compute sparsity, maar memory sparsity
DeepSeek-V4 (mei '26)	CSA/HCA + mHC + FP4 + on-disk KV-cache	Million-token context wordt een systeemarchitectuur, niet alleen een modelclaim

De kerninnovatie: vier sparsity-assen

Wat opvalt is de systematiek. DeepSeek adresseert vier bottlenecks, elk met een eigen vorm van sparsity.

Compute sparsity (MoE). DeepSeek-V2 introduceerde DeepSeekMoE: 236B parameters, slechts 21B geactiveerd per token. Het idee is verrassend eenvoudig, waarom alle parameters gebruiken als je per token maar een fractie nodig hebt? Het resultaat: 42,5% lagere trainingskosten en 5,76× hogere throughput.

Aandachtssparsity (DSA, CSA, HCA). V3.2 doorbrak de kwadratische complexiteit van attention met DeepSeek Sparse Attention, per query-token alleen de top-k relevante KV-entries selecteren. V4 gaat verder met Compressed Sparse Attention (CSA, gecombineerde compressie en sparsity) en Heavily Compressed Attention (HCA, agressieve compressie mét behoud van dense attention). Bij 1M context: 27% van V3.2's FLOPs, 10% van diens KV-cache. Die getallen zijn geen graduële verbetering, het is een ordegrootte-sprong.

Memory sparsity (Engram). Dit vind ik de meest interessante. MoE schaalt compute conditioneel, maar Transformers hebben geen native primitief voor kennisopvraging. Engram introduceert O(1) n-gram lookup als complementaire sparsity-as, alsof je een kleine, supersnelle woordenboek-zoekopdracht inbouwt naast de zware rekenmachine. De U-shaped scaling law toont een optimaal punt tussen MoE (dynamische compute) en Engram (statisch geheugen). Resultaat: +5.0 BBH, +3.7 ARC-Challenge. Niet alleen betere kennis, maar betere reasoning, omdat vroege lagen worden ontlast van statische patroonherkenning.

Training sparsity (mHC, Muon). mHC projecteert Hyper-Connections op een constrained manifold om de identity-mapping eigenschap van residual connections te herstellen. Dit is geen serving-truc maar een trainability primitive, zonder mHC was V4's training op 32T+ tokens waarschijnlijk niet stabiel gebleven.

Wat dit betekent: modelkeuze is de verkeerde vraag

Hier wordt het praktisch. De vijf papers maken één ding glashelder: het model is een component, niet het antwoord. De echte architectuurvraag is: hoe bouw je een harness die deze componenten orkestreert?

Context is kapitaal, geen chatgeschiedenis

V3.2 rapporteert dat 20% van de search-testcases de 128K-contextlimiet overschrijdt. De geteste strategieën, volledig samenvatten, 75% weggooien, volledig weggooien, leveren een verrassend resultaat: discard-all scoort beter dan dure samenvattingstrajecten. Soms is weggooien effectiever dan samenvatten, omdat je geen ruis introduceert.

De les voor de praktijk: context is een lifecycle-beheerd asset. Ingest → classify → compress → cache → discard → summarize → verify. Context-compressie is een model-performance-vermenigvuldiger, geen randzaak.

KV-cache is een governance-object

V4's on-disk KV-cache en shared-prefix reuse zijn technisch indrukwekkend, maar ze creëren nieuwe risico's: tenant-isolatie, encryptie-at-rest, retention policies, provenance. Een KV-cache die gevoelige documenten heeft gezien en later wordt hergebruikt voor een andere query, dat is een datalek-vector, geen performance-optimalisatie. Wie dit implementeert zonder governance-laag, zaait problemen voor later.

Tool-use vraagt sandbox-first design

V4 benoemt expliciet "sandbox infrastructure for agentic AI." Agents krijgen pas toegang tot tools via een policy gateway: allowlists, OAuth/OIDC scopes, prompt-injection filters, tool-output labeling, approval gates en immutable audit logs. Dit is geen nice to have, het is de architectuurgrens tussen een gecontroleerd systeem en een onbeheersbare agent.

Benchmarking moet cost-aware worden

Meet niet alleen accuracy, maar ook: tokens, retries, tool calls, wall-clock time, context resets, cache hits, en euro per resolved task. V3.2 toont dat context-management strategieën scores sterker beïnvloeden dan modelkeuze. Een model dat 2% accurater is maar 10× meer tokens verbruikt, is in de praktijk gewoon inferieur.

Naar een AI-harness architectuur

De vertaling naar een werkende architectuur betekent een gelaagd deployment-model:

Workload	Plaatsing	Waarom
Privacy, bulk, repeteerbaar	Lokaal (V4-Flash, Ollama)	Geen dataverkeer naar externen, voorspelbare kosten
Zware maar niet-gevoelige agentic workloads	Hosted open model	Frontier-capaciteit zonder vendor lock-in
High-stakes reasoning, bestuursadvies	Frontier cloud	Maximale capaciteit voor complexe synthese
Compliance, security, juridisch	Human-in-the-loop	Besluiten met rechtsgevolgen vereisen menselijke eindverantwoordelijkheid

De memory-architectuur volgt hetzelfde patroon:

Laag	Scope	Governance
Ephemeral	Actieve sessie	TTL, discard bij session end
Project	Codebase, documenten, teamkennis	Provenance, versie, confidence score
Governed long-term	Compliance, architectuurbesluiten, beleid	Immutable audit trail, human review, source binding

Wat ik ervan meeneem

Wat mij betreft beschrijven deze papers geen model-ontwikkeling, ze beschrijven een nieuw architectuurparadigma. De combinatie van lokale inference (Ollama, LiteLLM), context management, policy-gestuurde tool-toegang en cost-aware orchestration is geen theoretisch ideaal. Het is de onvermijdelijke richting waarin AI-architectuur beweegt.

Voor Nederlandse overheidsorganisaties die BIO2, NIS2 en de EU AI Act moeten naleven, is dat extra relevant. Soevereine AI betekent niet alleen wíe het model runt, maar hoe je context, geheugen en tool-toegang beheert op een manier die controleerbaar en auditeerbaar blijft. De papers van DeepSeek laten zien dat de techniek er klaar voor is, de uitdaging is nu de architectuur.

De vijf papers: DeepSeek-V2, DeepSeek-V3.2, mHC, Engram, en DeepSeek-V4. Lees ook onze eerdere analyses: OWASP Agentic Control Plane, Vier lagen voor betrouwbare AI-agents, en Kairos, temporal alignment in LLMs.

De evolutieketen in één oogopslag

Paper	Innovatie	Strategische betekenis
DeepSeek-V2 (mei '24)	MLA + DeepSeekMoE	Efficiënte sparse inference, minder rekenen per token, minder geheugen per contextvenster
DeepSeek-V3.2 (dec '25)	DSA + agentic post-training	Open modellen worden serieus voor code agents, tool-use en reasoning
mHC (dec '25)	Constrained hyper-connections	Stabielere diepe netwerken door identiteit-mapping te herstellen
Engram (jan '26)	Conditional memory via O(1)-lookup	Nieuwe sparsity-as: niet alleen compute sparsity, maar memory sparsity
DeepSeek-V4 (mei '26)	CSA/HCA + mHC + FP4 + on-disk KV-cache	Million-token context wordt een systeemarchitectuur, niet alleen een modelclaim

De kerninnovatie: vier sparsity-assen

Wat opvalt is de systematiek. DeepSeek adresseert vier bottlenecks, elk met een eigen vorm van sparsity.

Wat dit betekent: modelkeuze is de verkeerde vraag

Context is kapitaal, geen chatgeschiedenis

KV-cache is een governance-object

Tool-use vraagt sandbox-first design

Benchmarking moet cost-aware worden

Naar een AI-harness architectuur

De vertaling naar een werkende architectuur betekent een gelaagd deployment-model:

Workload	Plaatsing	Waarom
Privacy, bulk, repeteerbaar	Lokaal (V4-Flash, Ollama)	Geen dataverkeer naar externen, voorspelbare kosten
Zware maar niet-gevoelige agentic workloads	Hosted open model	Frontier-capaciteit zonder vendor lock-in
High-stakes reasoning, bestuursadvies	Frontier cloud	Maximale capaciteit voor complexe synthese
Compliance, security, juridisch	Human-in-the-loop	Besluiten met rechtsgevolgen vereisen menselijke eindverantwoordelijkheid

De memory-architectuur volgt hetzelfde patroon:

Laag	Scope	Governance
Ephemeral	Actieve sessie	TTL, discard bij session end
Project	Codebase, documenten, teamkennis	Provenance, versie, confidence score
Governed long-term	Compliance, architectuurbesluiten, beleid	Immutable audit trail, human review, source binding

Van modelspecificatie naar AI-harness - wat vijf DeepSeek-papers ons leren over de volgende architectuurgolf

De evolutieketen in één oogopslag

De kerninnovatie: vier sparsity-assen

Wat dit betekent: modelkeuze is de verkeerde vraag

Context is kapitaal, geen chatgeschiedenis

KV-cache is een governance-object

Tool-use vraagt sandbox-first design

Benchmarking moet cost-aware worden

Naar een AI-harness architectuur

Wat ik ervan meeneem