Van modelspecificatie naar AI-harness — wat vijf DeepSeek-papers ons leren over de volgende architectuurgolf
AI ArchitectuurIn mei 2026 publiceerde DeepSeek een reeks papers die samen een architectuurverhaal vertellen dat verder reikt dan benchmarks. De rode draad: frontier performance verschuift van brute-force parameterschaling naar system-level sparsity engineering. Voor organisaties die AI serieus inzetten verschuift de vraag daarmee fundamenteel — niet "welk model is beter?" maar "hoe bouw ik een harness die context, geheugen, sandboxing, routing en governance orkestreert?"
De evolutieketen in één oogopslag
| Paper | Innovatie | Strategische betekenis | |-------|-----------|----------------------| | DeepSeek-V2 (mei '24) | MLA + DeepSeekMoE | Efficiënte sparse inference — minder rekenen per token, minder geheugen per contextvenster | | DeepSeek-V3.2 (dec '25) | DSA + agentic post-training | Open modellen worden serieus voor code agents, tool-use en reasoning | | mHC (dec '25) | Constrained hyper-connections | Stabielere diepe netwerken door identiteit-mapping te herstellen | | Engram (jan '26) | Conditional memory via O(1)-lookup | Nieuwe sparsity-as: niet alleen compute sparsity, maar memory sparsity | | DeepSeek-V4 (mei '26) | CSA/HCA + mHC + FP4 + on-disk KV-cache | Million-token context wordt een systeemarchitectuur, niet alleen een modelclaim |
De kerninnovatie: vier sparsity-assen
De architectuur evolueert langs vier assen die elk een eigen bottleneck adresseren:
Compute sparsity (MoE). DeepSeek-V2 introduceerde DeepSeekMoE: 236B parameters, slechts 21B geactiveerd per token. Het idee is eenvoudig: waarom alle parameters gebruiken als je per token maar een fractie nodig hebt? Het resultaat: 42,5% lagere trainingskosten en 5,76× hogere throughput.
Aandachtssparsity (DSA, CSA, HCA). V3.2 doorbrak de kwadratische complexiteit van attention met DeepSeek Sparse Attention — per query-token alleen de top-k relevante KV-entries selecteren. V4 gaat verder met Compressed Sparse Attention (CSA, gecombineerde compressie en sparsity) en Heavily Compressed Attention (HCA, agressieve compressie met behoud van dense attention). Bij 1M context: 27% van V3.2's FLOPs, 10% van diens KV-cache.
Memory sparsity (Engram). De meest conceptuele doorbraak: MoE schaalt compute conditioneel, maar Transformers hebben geen native primitief voor kennisopvraging. Engram introduceert O(1) n-gram lookup als complementaire sparsity-as. De U-shaped scaling law toont een optimaal punt tussen MoE (dynamische compute) en Engram (statisch geheugen). Resultaat: +5.0 BBH, +3.7 ARC-Challenge — niet alleen betere kennis, maar betere reasoning, omdat de vroege lagen worden ontlast van statische patroonherkenning.
Training sparsity (mHC, Muon). mHC projecteert Hyper-Connections op een constrained manifold om de identity-mapping eigenschap van residual connections te herstellen. Dit is geen serving-truc maar een trainability primitive — zonder mHC was V4's training op 32T+ tokens waarschijnlijk niet stabiel gebleven.
Wat dit betekent: modelkeuze is de verkeerde vraag
De vijf papers maken één ding glashelder: het model is een component, niet het antwoord. De echte architectuurvraag is: hoe bouw je een harness die deze componenten orkestreert?
Context is kapitaal, geen chatgeschiedenis
V3.2 rapporteert dat 20% van de search-testcases de 128K-contextlimiet overschrijdt. De geteste strategieën — volledig samenvatten, 75% weggooien, volledig weggooien — laten zien dat discard-all verrassend goed scoort, met betere efficiëntie dan dure samenvattingstrajecten.
De les: context is een lifecycle-beheerd asset. Ingest → classify → compress → cache → discard → summarize → verify. Context-compressie is een model-performance-vermenigvuldiger — geen randzaak.
KV-cache is een governance-object
V4's on-disk KV-cache en shared-prefix reuse zijn technisch indrukwekkend. Maar ze creëren nieuwe risico's: tenant-isolatie, encryptie-at-rest, retention policies, provenance. Een KV-cache die gevoelige documenten heeft gezien en later wordt hergebruikt voor een andere query — dat is een datalek-vector, geen performance-optimalisatie.
Tool-use vraagt sandbox-first design
V4 benoemt expliciet "sandbox infrastructure for agentic AI." Agents krijgen pas toegang tot tools via een policy gateway: allowlists, OAuth/OIDC scopes, prompt-injection filters, tool-output labeling, approval gates en immutable audit logs. Dit is geen "nice to have" — het is de architectuurgrens tussen een gecontroleerd systeem en een onbeheersbare agent.
Benchmarking moet cost-aware worden
Meet niet alleen accuracy, maar ook: tokens, retries, tool calls, wall-clock time, context resets, cache hits — en euro per resolved task. V3.2 toont dat context-management strategieën scores sterker beïnvloeden dan modelkeuze. Een model dat 2% accurater is maar 10× meer tokens verbruikt, is operationeel inferieur.
Naar een AI-harness architectuur
De vertaling van deze papers naar enterprise-architectuur is een vierlaags deployment-model:
| Workload | Plaatsing | Waarom | |----------|-----------|--------| | Privacy, bulk, repeteerbaar | Lokaal (V4-Flash, Ollama) | Geen dataverkeer naar externen, voorspelbare kosten | | Zware maar niet-gevoelige agentic workloads | Hosted open model | Frontier-capaciteit zonder vendor lock-in | | High-stakes reasoning, bestuursadvies | Frontier cloud | Maximale capaciteit voor complexe synthese | | Compliance, security, juridisch | Human-in-the-loop | Besluiten met rechtsgevolgen vereisen menselijke eindverantwoordelijkheid |
De memory-architectuur volgt hetzelfde gelaagde patroon:
| Laag | Scope | Governance | |------|-------|------------| | Ephemeral | Actieve sessie | TTL, discard bij session end | | Project | Codebase, documenten, teamkennis | Provenance, versie, confidence score | | Governed long-term | Compliance, architectuurbesluiten, beleid | Immutable audit trail, human review, source binding |
Wat DjimIT hiermee doet
DjimIT bouwt deze harness. De combinatie van lokale inference (Ollama, LiteLLM), context management, policy-gestuurde tool-toegang en cost-aware orchestration is geen theoretisch ideaal — het is de architectuur die deze vijf papers als onvermijdelijk beschrijven.
Onze aanpak:
- Model placement architecture: niet één model maar een routeringslaag die per workload bepaalt waar compute plaatsvindt
- Context governance: compressie, caching, discard-strategieën als eerste-klas architectuurcomponenten
- Tool sandbox: policy gateway met OIDC scopes, approval gates en audit trails
- Cost telemetry: euro per resolved task als KPI, niet accuracy alleen
Voor Nederlandse overheidsorganisaties die BIO2, NIS2 en de EU AI Act moeten naleven, is dit geen luxe — het is de enige architectuur die soevereiniteit, veiligheid en schaalbaarheid verenigt.
De vijf papers: DeepSeek-V2, DeepSeek-V3.2, mHC, Engram, en DeepSeek-V4. Lees ook onze eerdere analyses: OWASP Agentic Control Plane, Vier lagen voor betrouwbare AI-agents, en Kairos — temporal alignment in LLMs.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten — direct in uw inbox.
Doorlopend Advies
Wilt u structurele begeleiding op AI, security & compliance?
Met een Advisory Subscription heeft u een externe sparringpartner die meedenkt op strategisch en technisch niveau — zonder de overhead van een fulltime dienstverband. Vanaf €1.500 per maand, maandelijks opzegbaar.
Ontdek Advisory Subscription →