DeepSeek-V4: het eerste open frontier-model met 1 miljoen tokens context. Maar niet op je MacBook.
AIDe afgelopen 48 uur draaide AI-Twitter op volle toeren over één onderwerp: DeepSeek-V4. Het Chinese AI-lab dropte een 58-pagina's tellend technical report, MIT-gelicenseerde gewichten op HuggingFace, en een claim die te mooi klinkt om waar te zijn: frontier reasoning met 1 miljoen tokens context, open-source, met 10% van de KV-cache van de vorige generatie.
De realiteit is genuanceerder — en commercieel interessanter — dan de hype suggereert. Dit is wat je moet weten.
Wat is er precies released?
De HuggingFace-collectie bevat vier modellen:
| Model | Totale params | Actieve params | Context | Precisie | |-------|--------------|----------------|----------|----------| | DeepSeek-V4-Pro | 1.6T | 49B | 1M | FP4 + FP8 Mixed | | DeepSeek-V4-Pro-Base | 1.6T | 49B | 1M | FP8 Mixed | | DeepSeek-V4-Flash | 284B | 13B | 1M | FP4 + FP8 Mixed | | DeepSeek-V4-Flash-Base | 284B | 13B | 1M | FP8 Mixed |
Er is een discrepantie tussen het technical report (1.6T params voor Pro) en de HuggingFace metadata (862B), waarschijnlijk door checkpoint-packaging. Voor architectuuranalyse is het technical report leidend. En: het is MIT-gelicenseerd. Geen non-commercial clausule, geen "contact us for enterprise." Je mag forken, fine-tunen, en verkopen.
Dit is strategisch relevant, maar niet als "run it locally on a workstation"-model. De Pro-variant is data-center inference territory — 400GB+ VRAM in volledige vorm. De Flash-variant (13B actief) is realistischer voor dedicated hosting, maar ook niet voor een MacBook. Als je DeepSeek-V4 serieus wilt inzetten, denk dan in dedicated inference endpoints of gecontroleerde cloud-hosting.
Drie architectuur-doorbraken
DeepSeek-V4 introduceert drie technische ideeën die ook voor niet-ML-engineers de moeite waard zijn:
1. Hybrid Attention: CSA + HCA
Dit is de kerninnovatie. DeepSeek ontwikkelde twee complementaire compressiemechanismen die het quadratic complexity-probleem van transformer-attention aanpakken:
CSA (Compressed Sparse Attention) comprimeert KV-caches langs de sequentie-dimensie, past daarna sparse attention toe — alleen de meest relevante tokens worden geselecteerd uit het gecomprimeerde resultaat. Denk: het model leest een samenvatting van oudere context en zoomt alleen in waar nodig.
HCA (Heavily Compressed Attention) gaat nog agressiever: het comprimeert de context tot een fractie van de oorspronkelijke tokens, maar behoudt dense aandacht over het gecomprimeerde resultaat. Geen selectief lezen — alles lezen, maar in gecomprimeerde vorm.
Beide mechanismen werken samen met een sliding window branch van 128 tokens die lokale coherentie behoudt. De cijfers bij 1M context: 27% van de single-token FLOPs en 10% van de KV-cache vergeleken met DeepSeek-V3.2. De Flash-variant gaat nog verder: 10% FLOPs en 7% KV-cache. Ten opzichte van de GQA8-baseline (de standaard in de meeste LLM's) is de KV-cache 2% van normaal.
Dit is geen trucje. Het is een architectonische doorbraak in lange-context efficiency.
2. Manifold-Constrained Hyper-Connections (mHC)
Residual connections zijn de ruggengraat van transformers — ze voorkomen dat signaal verdwijnt in diepe netwerken. Het probleem: bij 40+ lagen accumuleren numerieke fouten. DeepSeek constraineert de residual mapping tot het Birkhoff polytope — de wiskundige verzameling van dubbel-stochastische matrices. Dit garandeert een spectrale norm ≤ 1: geen explosie, geen collaps. De Sinkhorn-Knopp iteratie (20 stappen) projecteert de matrix elke forward-pass opnieuw op deze manifold.
Voor de wiskundigen: het residual pad wordt een niet-expansieve operator. Voor de engineers: geen NaN-gradients in laag 37.
3. Muon Optimizer
DeepSeek stapt af van AdamW voor bijna alle modules. Muon gebruikt Newton-Schulz iteraties om gradient updates te orthogonaliseren — in plaats van per-parameter adaptieve learning rates, dwingt het de update-matrix naar unitaire singular values. Het model leert in richtingen, niet in schalen. DeepSeek's variant: 8 snelle iteraties (coefficienten 3.4445/-4.7750/2.0315) gevolgd door 2 stabiliserende (2/-1.5/0.5). Geen QK-Clip nodig — de architectuur vangt exploderende attention logits zelf af.
De benchmark-claims: indrukwekkend maar genuanceerd
De getallen zijn sterk, maar lees ze met context:
Kennis: V4-Pro haalt 55.2% op SimpleQA Verified, 62.6% op FACTS Parametric. Dat is ruwweg een verdubbeling ten opzichte van V3.2. Dit zijn de "weet het model feiten of hallucineert het?"-benchmarks.
Reasoning: V4-Pro-Max scoort 90.1% op GPQA Diamond, 93.5% op LiveCodeBench, 67.9% op Terminal Bench 2.0, 73.6% op MCPAtlas Public. Het positioneert zich tussen Claude Opus 4.6 en GPT-5.4 — open model op closed-source niveau.
Code Agent: Het interne R&D benchmark (30 real-world taken, 50+ engineers, technologie-stacks van PyTorch tot CUDA tot Rust) laat 67% pass rate zien. Claude Opus 4.5 haalt 70%, Opus 4.6 Thinking 80%. 52% van DeepSeek's eigen developers zegt dat V4-Pro klaar is als hun primaire coding model.
Maar: Op complexe creatieve schrijftaken verliest V4-Pro van Claude Opus 4.5. Op de moeilijkste Chinese multi-turn prompts: 45.9% vs 52.0% win rate. En het technical report heeft géén dedicated safety-, red-teaming- of privacy-sectie. Geen gepubliceerd model card die voldoet aan de EU AI Act-vereisten. Voor gereguleerde adoptie is dat een gat dat je zelf moet dichten.
De soevereiniteitshoek
Voor Nederlandse overheidsorganisaties die onder BIO2 vallen, kan dit een kantelpunt zijn. De combinatie is uniek:
- MIT licentie. Je mag dit model in productie draaien zonder toestemming te vragen.
- 1M context window. Een volledige DPIA, aanbestedingstekst, of wettenbundel past in één sessie. Geen chunking, geen RAG-verlies.
- FP4 + FP8 mixed precision. De hardware-eisen zijn hoog, maar niet absurd. Flash past in circa 80GB VRAM — dat is haalbaar op een dedicated GPU-server.
- Geen API-afhankelijkheid. Je kunt het model air-gapped draaien. Geen data die je netwerk verlaat.
Maar: "open weights" is niet automatisch "sovereign". Je hebt een complete control plane nodig: modelverificatie, checksum-hashes, SBOM, reproducible deployment, data-jurisdictie, retention policies. De gewichten komen van HuggingFace — dat is een supply-chain punt dat je moet auditen. En als je via third-party inference providers werkt, classificeer prompts en outputs dan als dataverwerking onder AVG.
De Zero Trust principes die we onlangs analyseerden, zijn hier 1:1 toepasbaar. Een frontier-model zonder governance-laag is geen soevereiniteit — het is een risico met betere marketing.
Commerciële proposities: vier concrete diensten
DeepSeek-V4 opent concrete proposities voor de Nederlandse markt:
1. Long-context code & architectuur-intelligentie
Een dienst die een volledige repository, documentatie, ADR's, CI/CD-pipelines, Terraform-definities, threat models en backlog items in één analyse consumeert. Het resultaat: een executive-grade architectuur-, security-, en moderniseringsassessment. De V4-Pro waarde zit in context retention zonder agressieve chunking — bestaande tools verliezen samenhang bij documenten van deze schaal.
2. Regulated-sector AI governance copilot
Long-context modellen voor AI-governance: EU AI Act, AVG, NIS2, ISO 27001, BIO2 en interne beleidsdocumenten tegelijk bevragen. Waar traditionele RAG-systemen moeite hebben met cross-document redenering ("als artikel X in context Y geldt, is uitzondering Z van toepassing?") kan V4-Pro dit in één inference call redeneren.
3. Agentic SDLC accelerator
V4-Pro achter je coding harness — issue triage, repository understanding, test generatie, refactor planning, secure code review. De SWE Verified (80.6%) en Terminal Bench (67.9%) scores maken dit geloofwaardig, maar de dienst moet deterministische guardrails bevatten: tool authorization, branch isolation, policy gates en human approval voor merge. Dit is exact het patroon dat we schetsten in de vier lagen.
4. Million-token evidence synthesis
Board reports, incident postmortems, procurement dossiers, juridische analyses — alles waar tientallen of honderden documenten als één coherente bewijsvoering moeten worden beredeneerd. Geen samenvattingsverlies zoals bij chunked processing.
Positionering: niet "wij gebruiken DeepSeek", maar dit
De sterkste commerciële hoek is níet modeltoegang verkopen. Het is:
> "Wij leveren secure, auditable, long-context agentic intelligence voor complexe repositories, governance-dossiers en gereguleerde enterprise-workflows — met model-routing, policy enforcement en evidence-based evaluatie."
De architectuur die je daarvoor nodig hebt:
- Model-routering via een LiteLLM-gateway: routeer op dataclassificatie, taakcomplexiteit, kostenplafond, latentie en auditvereisten
- Policy enforcement vóór tool execution, niet alleen vóór model invocation
- Identity → request classification → prompt redaction → model routing → tool authorization → sandbox execution → output validation → audit log → evaluation feedback loop
- Niet één model overal: lokale modellen voor laag-risico preprocessing, V4-Flash voor bulkwerk, V4-Pro-Max voor de dure, hoogwaardige redeneertaken
Decision matrix: wat wel en niet
| Use case | Fit | Variant | Toelichting | |----------|-----|---------|-------------| | Volledige repo-analyse | Zeer hoog | Pro High/Max | Lange context + sterke code agent | | Secure SDLC assistent | Hoog | Pro of Flash | Pro voor planning, Flash voor bulk review | | Policy/compliance synthesis | Hoog | Pro | Multi-document redenering | | Bulk samenvatten | Middel/hoog | Flash | Betere cost/performance | | Lokaal op MacBook | Laag | Geen van beide | Te groot voor normale lokale hardware | | Soeverein op eigen GPU-server | Hoog maar conditioneel | Flash lokaal, Pro via dedicated hosting | Vereist volledige governance-laag |
Volgende stappen: geen platformbesluit maar een bake-off
Beslis nú niet over "we gaan DeepSeek gebruiken." Draai een gecontroleerde vergelijking met vijf evaluatie-lanes:
- Repository understanding
- Secure code review kwaliteit
- Architectuur-advies kwaliteit
- Long-document governance synthesis
- Agentic taakvoltooiing
Vergelijk DeepSeek-V4-Pro, DeepSeek-V4-Flash, Claude, en je sterkste lokale kandidaten. Meet niet alleen antwoordkwaliteit maar ook: token-kosten, retry rate, tool-call count, hallucinatiefrequentie, policy violations, latentie, en menselijke correctie-inspanning.
Begin met API-based inference via een gateway, niet met volledige lokale deployment. Voeg model-routing, audit logging, prompt-classificatie, output scoring en tool sandboxing toe vanaf dag één. Behandel DeepSeek-V4 als een krachtige backend in een governed agent platform — niet als standalone chatbot.
Het DeepSeek-V4 technical report is hier te downloaden. De open gewichten staan op de DeepSeek-V4 HuggingFace collectie.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten — direct in uw inbox.
Doorlopend Advies
Wilt u structurele begeleiding op AI, security & compliance?
Met een Advisory Subscription heeft u een externe sparringpartner die meedenkt op strategisch en technisch niveau — zonder de overhead van een fulltime dienstverband. Vanaf €1.500 per maand, maandelijks opzegbaar.
Ontdek Advisory Subscription →