De afgelopen 48 uur draaide AI-Twitter op volle toeren over één onderwerp: DeepSeek-V4. Het Chinese AI-lab dropte een 58-pagina's tellend technical report, MIT-gelicenseerde gewichten op HuggingFace, en een claim die te mooi klinkt om waar te zijn: frontier reasoning met 1 miljoen tokens context, open-source, met 10% van de KV-cache van de vorige generatie.

De realiteit is genuanceerder, en commercieel interessanter, dan de hype suggereert. Dit is wat je moet weten.

Wat is er precies released?

De HuggingFace-collectie bevat vier modellen:

Model	Totale params	Actieve params	Context	Precisie
DeepSeek-V4-Pro	1.6T	49B	1M	FP4 + FP8 Mixed
DeepSeek-V4-Pro-Base	1.6T	49B	1M	FP8 Mixed
DeepSeek-V4-Flash	284B	13B	1M	FP4 + FP8 Mixed
DeepSeek-V4-Flash-Base	284B	13B	1M	FP8 Mixed

Er is een discrepantie tussen het technical report (1.6T params voor Pro) en de HuggingFace metadata (862B), waarschijnlijk door checkpoint-packaging. Voor architectuuranalyse is het technical report leidend. En: het is MIT-gelicenseerd. Geen non-commercial clausule, geen "contact us for enterprise." Je mag forken, fine-tunen, en verkopen.

Dit is strategisch relevant, maar niet als "run it locally on a workstation"-model. De Pro-variant is data-center inference territory, 400GB+ VRAM in volledige vorm. De Flash-variant (13B actief) is realistischer voor dedicated hosting, maar ook niet voor een MacBook. Als je DeepSeek-V4 serieus wilt inzetten, denk dan in dedicated inference endpoints of gecontroleerde cloud-hosting.

Drie architectuur-doorbraken

DeepSeek-V4 introduceert drie technische ideeën die ook voor niet-ML-engineers de moeite waard zijn:

1. Hybrid Attention: CSA + HCA

Dit is de kerninnovatie. DeepSeek ontwikkelde twee complementaire compressiemechanismen die het quadratic complexity-probleem van transformer-attention aanpakken:

CSA (Compressed Sparse Attention) comprimeert KV-caches langs de sequentie-dimensie, past daarna sparse attention toe, alleen de meest relevante tokens worden geselecteerd uit het gecomprimeerde resultaat. Denk: het model leest een samenvatting van oudere context en zoomt alleen in waar nodig.

HCA (Heavily Compressed Attention) gaat nog agressiever: het comprimeert de context tot een fractie van de oorspronkelijke tokens, maar behoudt dense aandacht over het gecomprimeerde resultaat. Geen selectief lezen, alles lezen, maar in gecomprimeerde vorm.

Beide mechanismen werken samen met een sliding window branch van 128 tokens die lokale coherentie behoudt. De cijfers bij 1M context: 27% van de single-token FLOPs en 10% van de KV-cache vergeleken met DeepSeek-V3.2. De Flash-variant gaat nog verder: 10% FLOPs en 7% KV-cache. Ten opzichte van de GQA8-baseline (de standaard in de meeste LLM's) is de KV-cache 2% van normaal.

Dit is geen trucje. Het is een architectonische doorbraak in lange-context efficiency.

2. Manifold-Constrained Hyper-Connections (mHC)

Residual connections zijn de ruggengraat van transformers, ze voorkomen dat signaal verdwijnt in diepe netwerken. Het probleem: bij 40+ lagen accumuleren numerieke fouten. DeepSeek constraineert de residual mapping tot het Birkhoff polytope, de wiskundige verzameling van dubbel-stochastische matrices. Dit garandeert een spectrale norm ≤ 1: geen explosie, geen collaps. De Sinkhorn-Knopp iteratie (20 stappen) projecteert de matrix elke forward-pass opnieuw op deze manifold.

Voor de wiskundigen: het residual pad wordt een niet-expansieve operator. Voor de engineers: geen NaN-gradients in laag 37.

3. Muon Optimizer

DeepSeek stapt af van AdamW voor bijna alle modules. Muon gebruikt Newton-Schulz iteraties om gradient updates te orthogonaliseren, in plaats van per-parameter adaptieve learning rates, dwingt het de update-matrix naar unitaire singular values. Het model leert in richtingen, niet in schalen. DeepSeek's variant: 8 snelle iteraties (coefficienten 3.4445/-4.7750/2.0315) gevolgd door 2 stabiliserende (2/-1.5/0.5). Geen QK-Clip nodig, de architectuur vangt exploderende attention logits zelf af.

De benchmark-claims: indrukwekkend maar genuanceerd

De getallen zijn sterk, maar lees ze met context:

Kennis: V4-Pro haalt 55.2% op SimpleQA Verified, 62.6% op FACTS Parametric. Dat is ruwweg een verdubbeling ten opzichte van V3.2. Dit zijn de "weet het model feiten of hallucineert het?"-benchmarks.

Reasoning: V4-Pro-Max scoort 90.1% op GPQA Diamond, 93.5% op LiveCodeBench, 67.9% op Terminal Bench 2.0, 73.6% op MCPAtlas Public. Het positioneert zich tussen Claude Opus 4.6 en GPT-5.4, open model op closed-source niveau.

Code Agent: Het interne R&D benchmark (30 real-world taken, 50+ engineers, technologie-stacks van PyTorch tot CUDA tot Rust) laat 67% pass rate zien. Claude Opus 4.5 haalt 70%, Opus 4.6 Thinking 80%. 52% van DeepSeek's eigen developers zegt dat V4-Pro klaar is als hun primaire coding model.

Maar: Op complexe creatieve schrijftaken verliest V4-Pro van Claude Opus 4.5. Op de moeilijkste Chinese multi-turn prompts: 45.9% vs 52.0% win rate. En het technical report heeft géén dedicated safety-, red-teaming- of privacy-sectie. Geen gepubliceerd model card die voldoet aan de EU AI Act-vereisten. Voor gereguleerde adoptie is dat een gat dat je zelf moet dichten.

De soevereiniteitshoek

Voor Nederlandse overheidsorganisaties die onder BIO2 vallen, kan dit een kantelpunt zijn. De combinatie is uniek:

MIT licentie. Je mag dit model in productie draaien zonder toestemming te vragen.
1M context window. Een volledige DPIA, aanbestedingstekst, of wettenbundel past in één sessie. Geen chunking, geen RAG-verlies.
FP4 + FP8 mixed precision. De hardware-eisen zijn hoog, maar niet absurd. Flash past in circa 80GB VRAM, dat is haalbaar op een dedicated GPU-server.
Geen API-afhankelijkheid. Je kunt het model air-gapped draaien. Geen data die je netwerk verlaat.

Maar: "open weights" is niet automatisch "sovereign". Je hebt een complete control plane nodig: modelverificatie, checksum-hashes, SBOM, reproducible deployment, data-jurisdictie, retention policies. De gewichten komen van HuggingFace, dat is een supply-chain punt dat je moet auditen. En als je via third-party inference providers werkt, classificeer prompts en outputs dan als dataverwerking onder AVG.

De Zero Trust principes die we onlangs analyseerden, zijn hier 1:1 toepasbaar. Een frontier-model zonder governance-laag is geen soevereiniteit, het is een risico met betere marketing.

Commerciële proposities: vier concrete diensten

DeepSeek-V4 opent concrete proposities voor de Nederlandse markt:

1. Long-context code & architectuur-intelligentie

Een dienst die een volledige repository, documentatie, ADR's, CI/CD-pipelines, Terraform-definities, threat models en backlog items in één analyse consumeert. Het resultaat: een executive-grade architectuur-, security-, en moderniseringsassessment. De V4-Pro waarde zit in context retention zonder agressieve chunking, bestaande tools verliezen samenhang bij documenten van deze schaal.

2. Regulated-sector AI governance copilot

Long-context modellen voor AI-governance: EU AI Act, AVG, NIS2, ISO 27001, BIO2 en interne beleidsdocumenten tegelijk bevragen. Waar traditionele RAG-systemen moeite hebben met cross-document redenering ("als artikel X in context Y geldt, is uitzondering Z van toepassing?") kan V4-Pro dit in één inference call redeneren.

3. Agentic SDLC accelerator

V4-Pro achter je coding harness, issue triage, repository understanding, test generatie, refactor planning, secure code review. De SWE Verified (80.6%) en Terminal Bench (67.9%) scores maken dit geloofwaardig, maar de dienst moet deterministische guardrails bevatten: tool authorization, branch isolation, policy gates en human approval voor merge. Dit is exact het patroon dat we schetsten in de vier lagen.

4. Million-token evidence synthesis

Board reports, incident postmortems, procurement dossiers, juridische analyses, alles waar tientallen of honderden documenten als één coherente bewijsvoering moeten worden beredeneerd. Geen samenvattingsverlies zoals bij chunked processing.

Positionering: niet "wij gebruiken DeepSeek", maar dit

De sterkste commerciële hoek is níet modeltoegang verkopen. Het is:

＞ "Wij leveren secure, auditable, long-context agentic intelligence voor complexe repositories, governance-dossiers en gereguleerde enterprise-workflows, met model-routing, policy enforcement en evidence-based evaluatie."

De architectuur die je daarvoor nodig hebt:

Model-routering via een LiteLLM-gateway: routeer op dataclassificatie, taakcomplexiteit, kostenplafond, latentie en auditvereisten
Policy enforcement vóór tool execution, niet alleen vóór model invocation
Identity → request classification → prompt redaction → model routing → tool authorization → sandbox execution → output validation → audit log → evaluation feedback loop
Niet één model overal: lokale modellen voor laag-risico preprocessing, V4-Flash voor bulkwerk, V4-Pro-Max voor de dure, hoogwaardige redeneertaken

Decision matrix: wat wel en niet

Use case	Fit	Variant	Toelichting
Volledige repo-analyse	Zeer hoog	Pro High/Max	Lange context + sterke code agent
Secure SDLC assistent	Hoog	Pro of Flash	Pro voor planning, Flash voor bulk review
Policy/compliance synthesis	Hoog	Pro	Multi-document redenering
Bulk samenvatten	Middel/hoog	Flash	Betere cost/performance
Lokaal op MacBook	Laag	Geen van beide	Te groot voor normale lokale hardware
Soeverein op eigen GPU-server	Hoog maar conditioneel	Flash lokaal, Pro via dedicated hosting	Vereist volledige governance-laag

Volgende stappen: geen platformbesluit maar een bake-off

Beslis nú niet over "we gaan DeepSeek gebruiken." Draai een gecontroleerde vergelijking met vijf evaluatie-lanes:

Repository understanding
Secure code review kwaliteit
Architectuur-advies kwaliteit
Long-document governance synthesis
Agentic taakvoltooiing

Vergelijk DeepSeek-V4-Pro, DeepSeek-V4-Flash, Claude, en je sterkste lokale kandidaten. Meet niet alleen antwoordkwaliteit maar ook: token-kosten, retry rate, tool-call count, hallucinatiefrequentie, policy violations, latentie, en menselijke correctie-inspanning.

Begin met API-based inference via een gateway, niet met volledige lokale deployment. Voeg model-routing, audit logging, prompt-classificatie, output scoring en tool sandboxing toe vanaf dag één. Behandel DeepSeek-V4 als een krachtige backend in een governed agent platform, niet als standalone chatbot.

Het DeepSeek-V4 technical report is hier te downloaden. De open gewichten staan op de DeepSeek-V4 HuggingFace collectie.

De realiteit is genuanceerder, en commercieel interessanter, dan de hype suggereert. Dit is wat je moet weten.

Wat is er precies released?

De HuggingFace-collectie bevat vier modellen:

Model	Totale params	Actieve params	Context	Precisie
DeepSeek-V4-Pro	1.6T	49B	1M	FP4 + FP8 Mixed
DeepSeek-V4-Pro-Base	1.6T	49B	1M	FP8 Mixed
DeepSeek-V4-Flash	284B	13B	1M	FP4 + FP8 Mixed
DeepSeek-V4-Flash-Base	284B	13B	1M	FP8 Mixed

Drie architectuur-doorbraken

DeepSeek-V4 introduceert drie technische ideeën die ook voor niet-ML-engineers de moeite waard zijn:

1. Hybrid Attention: CSA + HCA

Dit is de kerninnovatie. DeepSeek ontwikkelde twee complementaire compressiemechanismen die het quadratic complexity-probleem van transformer-attention aanpakken:

Dit is geen trucje. Het is een architectonische doorbraak in lange-context efficiency.

2. Manifold-Constrained Hyper-Connections (mHC)

Voor de wiskundigen: het residual pad wordt een niet-expansieve operator. Voor de engineers: geen NaN-gradients in laag 37.

3. Muon Optimizer

De benchmark-claims: indrukwekkend maar genuanceerd

De getallen zijn sterk, maar lees ze met context:

De soevereiniteitshoek

Voor Nederlandse overheidsorganisaties die onder BIO2 vallen, kan dit een kantelpunt zijn. De combinatie is uniek:

MIT licentie. Je mag dit model in productie draaien zonder toestemming te vragen.
1M context window. Een volledige DPIA, aanbestedingstekst, of wettenbundel past in één sessie. Geen chunking, geen RAG-verlies.
FP4 + FP8 mixed precision. De hardware-eisen zijn hoog, maar niet absurd. Flash past in circa 80GB VRAM, dat is haalbaar op een dedicated GPU-server.
Geen API-afhankelijkheid. Je kunt het model air-gapped draaien. Geen data die je netwerk verlaat.

De Zero Trust principes die we onlangs analyseerden, zijn hier 1:1 toepasbaar. Een frontier-model zonder governance-laag is geen soevereiniteit, het is een risico met betere marketing.

Commerciële proposities: vier concrete diensten

DeepSeek-V4 opent concrete proposities voor de Nederlandse markt:

1. Long-context code & architectuur-intelligentie

2. Regulated-sector AI governance copilot

3. Agentic SDLC accelerator

4. Million-token evidence synthesis

Positionering: niet "wij gebruiken DeepSeek", maar dit

De sterkste commerciële hoek is níet modeltoegang verkopen. Het is:

De architectuur die je daarvoor nodig hebt:

Model-routering via een LiteLLM-gateway: routeer op dataclassificatie, taakcomplexiteit, kostenplafond, latentie en auditvereisten
Policy enforcement vóór tool execution, niet alleen vóór model invocation
Identity → request classification → prompt redaction → model routing → tool authorization → sandbox execution → output validation → audit log → evaluation feedback loop
Niet één model overal: lokale modellen voor laag-risico preprocessing, V4-Flash voor bulkwerk, V4-Pro-Max voor de dure, hoogwaardige redeneertaken

Decision matrix: wat wel en niet

Use case	Fit	Variant	Toelichting
Volledige repo-analyse	Zeer hoog	Pro High/Max	Lange context + sterke code agent
Secure SDLC assistent	Hoog	Pro of Flash	Pro voor planning, Flash voor bulk review
Policy/compliance synthesis	Hoog	Pro	Multi-document redenering
Bulk samenvatten	Middel/hoog	Flash	Betere cost/performance
Lokaal op MacBook	Laag	Geen van beide	Te groot voor normale lokale hardware
Soeverein op eigen GPU-server	Hoog maar conditioneel	Flash lokaal, Pro via dedicated hosting	Vereist volledige governance-laag

Volgende stappen: geen platformbesluit maar een bake-off

Beslis nú niet over "we gaan DeepSeek gebruiken." Draai een gecontroleerde vergelijking met vijf evaluatie-lanes:

Repository understanding
Secure code review kwaliteit
Architectuur-advies kwaliteit
Long-document governance synthesis
Agentic taakvoltooiing

Het DeepSeek-V4 technical report is hier te downloaden. De open gewichten staan op de DeepSeek-V4 HuggingFace collectie.

DeepSeek-V4: het eerste open frontier-model met 1 miljoen tokens context. Maar niet op je MacBook.

Wat is er precies released?

Drie architectuur-doorbraken

1. Hybrid Attention: CSA + HCA

2. Manifold-Constrained Hyper-Connections (mHC)

3. Muon Optimizer

De benchmark-claims: indrukwekkend maar genuanceerd

De soevereiniteitshoek

Commerciële proposities: vier concrete diensten

1. Long-context code & architectuur-intelligentie

2. Regulated-sector AI governance copilot

3. Agentic SDLC accelerator

4. Million-token evidence synthesis

Positionering: niet "wij gebruiken DeepSeek", maar dit

Decision matrix: wat wel en niet

Volgende stappen: geen platformbesluit maar een bake-off