Van modelspecificatie naar AI-harness — wat vijf DeepSeek-papers ons leren over de volgende architectuurgolf
AI & ArchitectuurIk zat afgelopen weekend met een bak koffie de vijf nieuwe DeepSeek-papers door te nemen, en halverwege viel het kwartje. Dit gaat niet over betere benchmarks. Dit gaat over een fundamenteel andere manier van denken over AI-architectuur.
De papers verschenen in mei 2026, maar het verhaal dat ze samen vertellen is groter dan DeepSeek alleen. De rode draad: frontier performance verschuift van brute-force parameterschaling naar system-level sparsity engineering. Voor organisaties die AI serieus inzetten, verandert daarmee de vraag, niet "welk model is beter?" maar "hoe bouw ik een harness die context, geheugen, sandboxing, routing en governance orkestreert?"
De evolutieketen in één oogopslag
| Paper | Innovatie | Strategische betekenis |
|---|---|---|
| DeepSeek-V2 (mei '24) | MLA + DeepSeekMoE | Efficiënte sparse inference, minder rekenen per token, minder geheugen per contextvenster |
| DeepSeek-V3.2 (dec '25) | DSA + agentic post-training | Open modellen worden serieus voor code agents, tool-use en reasoning |
| mHC (dec '25) | Constrained hyper-connections | Stabielere diepe netwerken door identiteit-mapping te herstellen |
| Engram (jan '26) | Conditional memory via O(1)-lookup | Nieuwe sparsity-as: niet alleen compute sparsity, maar memory sparsity |
| DeepSeek-V4 (mei '26) | CSA/HCA + mHC + FP4 + on-disk KV-cache | Million-token context wordt een systeemarchitectuur, niet alleen een modelclaim |
De kerninnovatie: vier sparsity-assen
Wat opvalt is de systematiek. DeepSeek adresseert vier bottlenecks, elk met een eigen vorm van sparsity.
Compute sparsity (MoE). DeepSeek-V2 introduceerde DeepSeekMoE: 236B parameters, slechts 21B geactiveerd per token. Het idee is verrassend eenvoudig, waarom alle parameters gebruiken als je per token maar een fractie nodig hebt? Het resultaat: 42,5% lagere trainingskosten en 5,76× hogere throughput.
Aandachtssparsity (DSA, CSA, HCA). V3.2 doorbrak de kwadratische complexiteit van attention met DeepSeek Sparse Attention, per query-token alleen de top-k relevante KV-entries selecteren. V4 gaat verder met Compressed Sparse Attention (CSA, gecombineerde compressie en sparsity) en Heavily Compressed Attention (HCA, agressieve compressie mét behoud van dense attention). Bij 1M context: 27% van V3.2's FLOPs, 10% van diens KV-cache. Die getallen zijn geen graduële verbetering, het is een ordegrootte-sprong.
Memory sparsity (Engram). Dit vind ik de meest interessante. MoE schaalt compute conditioneel, maar Transformers hebben geen native primitief voor kennisopvraging. Engram introduceert O(1) n-gram lookup als complementaire sparsity-as, alsof je een kleine, supersnelle woordenboek-zoekopdracht inbouwt naast de zware rekenmachine. De U-shaped scaling law toont een optimaal punt tussen MoE (dynamische compute) en Engram (statisch geheugen). Resultaat: +5.0 BBH, +3.7 ARC-Challenge. Niet alleen betere kennis, maar betere reasoning, omdat vroege lagen worden ontlast van statische patroonherkenning.
Training sparsity (mHC, Muon). mHC projecteert Hyper-Connections op een constrained manifold om de identity-mapping eigenschap van residual connections te herstellen. Dit is geen serving-truc maar een trainability primitive, zonder mHC was V4's training op 32T+ tokens waarschijnlijk niet stabiel gebleven.
Wat dit betekent: modelkeuze is de verkeerde vraag
Hier wordt het praktisch. De vijf papers maken één ding glashelder: het model is een component, niet het antwoord. De echte architectuurvraag is: hoe bouw je een harness die deze componenten orkestreert?
Context is kapitaal, geen chatgeschiedenis
V3.2 rapporteert dat 20% van de search-testcases de 128K-contextlimiet overschrijdt. De geteste strategieën, volledig samenvatten, 75% weggooien, volledig weggooien, leveren een verrassend resultaat: discard-all scoort beter dan dure samenvattingstrajecten. Soms is weggooien effectiever dan samenvatten, omdat je geen ruis introduceert.
De les voor de praktijk: context is een lifecycle-beheerd asset. Ingest → classify → compress → cache → discard → summarize → verify. Context-compressie is een model-performance-vermenigvuldiger, geen randzaak.
KV-cache is een governance-object
V4's on-disk KV-cache en shared-prefix reuse zijn technisch indrukwekkend, maar ze creëren nieuwe risico's: tenant-isolatie, encryptie-at-rest, retention policies, provenance. Een KV-cache die gevoelige documenten heeft gezien en later wordt hergebruikt voor een andere query, dat is een datalek-vector, geen performance-optimalisatie. Wie dit implementeert zonder governance-laag, zaait problemen voor later.
Tool-use vraagt sandbox-first design
V4 benoemt expliciet "sandbox infrastructure for agentic AI." Agents krijgen pas toegang tot tools via een policy gateway: allowlists, OAuth/OIDC scopes, prompt-injection filters, tool-output labeling, approval gates en immutable audit logs. Dit is geen nice to have, het is de architectuurgrens tussen een gecontroleerd systeem en een onbeheersbare agent.
Benchmarking moet cost-aware worden
Meet niet alleen accuracy, maar ook: tokens, retries, tool calls, wall-clock time, context resets, cache hits, en euro per resolved task. V3.2 toont dat context-management strategieën scores sterker beïnvloeden dan modelkeuze. Een model dat 2% accurater is maar 10× meer tokens verbruikt, is in de praktijk gewoon inferieur.
Naar een AI-harness architectuur
De vertaling naar een werkende architectuur betekent een gelaagd deployment-model:
| Workload | Plaatsing | Waarom |
|---|---|---|
| Privacy, bulk, repeteerbaar | Lokaal (V4-Flash, Ollama) | Geen dataverkeer naar externen, voorspelbare kosten |
| Zware maar niet-gevoelige agentic workloads | Hosted open model | Frontier-capaciteit zonder vendor lock-in |
| High-stakes reasoning, bestuursadvies | Frontier cloud | Maximale capaciteit voor complexe synthese |
| Compliance, security, juridisch | Human-in-the-loop | Besluiten met rechtsgevolgen vereisen menselijke eindverantwoordelijkheid |
De memory-architectuur volgt hetzelfde patroon:
| Laag | Scope | Governance |
|---|---|---|
| Ephemeral | Actieve sessie | TTL, discard bij session end |
| Project | Codebase, documenten, teamkennis | Provenance, versie, confidence score |
| Governed long-term | Compliance, architectuurbesluiten, beleid | Immutable audit trail, human review, source binding |
Wat ik ervan meeneem
Wat mij betreft beschrijven deze papers geen model-ontwikkeling, ze beschrijven een nieuw architectuurparadigma. De combinatie van lokale inference (Ollama, LiteLLM), context management, policy-gestuurde tool-toegang en cost-aware orchestration is geen theoretisch ideaal. Het is de onvermijdelijke richting waarin AI-architectuur beweegt.
Voor Nederlandse overheidsorganisaties die BIO2, NIS2 en de EU AI Act moeten naleven, is dat extra relevant. Soevereine AI betekent niet alleen wíe het model runt, maar hoe je context, geheugen en tool-toegang beheert op een manier die controleerbaar en auditeerbaar blijft. De papers van DeepSeek laten zien dat de techniek er klaar voor is, de uitdaging is nu de architectuur.
De vijf papers: DeepSeek-V2, DeepSeek-V3.2, mHC, Engram, en DeepSeek-V4. Lees ook onze eerdere analyses: OWASP Agentic Control Plane, Vier lagen voor betrouwbare AI-agents, en Kairos, temporal alignment in LLMs.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten, direct in uw inbox.
Security & AI Operating Model
Advisory met executiekracht
Van BIO2 en NIS2 tot EU AI Act, embedded in uw operating model, niet als extern project. Maandelijks opzegbaar, met assessments als bewijsvoering.