De discussie over AI-soevereiniteit is voorbij. De vraag is niet langer óf Nederlandse overheidsorganisaties eigen modellen moeten draaien, maar welk model het beste past op de hardware die ze al hebben. Het antwoord dat deze week op Hacker News naar voren kwam, met 769 punten en honderden reacties, is concreet: Qwen 3.6 27B. Geen 70B, geen 8B, maar precies die 27 miljard parameters. Dat is geen toeval.

Laatst zat ik bij een zorginstelling die worstelde met een simpel vraagstuk: hoe ontsluit je interne beleidsdocumenten via een chatinterface zonder dat patiëntgegevens of vertrouwelijke protocollen naar een Amerikaanse cloud verdwijnen? Hun IT-afdeling had al een server met twee A4000 GPU’s klaarstaan, maar het model dat ze testten, een 70B-parameter beest, trok de boel krakend naar 2 tokens per seconde. Onbruikbaar. Het alternatief, een 7B-model, was snel maar hallucineerde zich een ongeluk bij complexe zorgvragen. Wat hier interessant is: het 27B-model van Qwen 3.6 lost precies dat spanningsveld op. Het is de sweet spot waar rekenkracht, nauwkeurigheid en soevereiniteit elkaar raken.

Waarom 27B en niet 70B of 8B?

De Hacker News-thread leest als een collectieve ontdekkingstocht. Gebruikers rapporteren dat Qwen 3.6 27B, mits correct gequantiseerd, op een enkele consumenten-GPU past zonder dramatisch kwaliteitsverlies. Een 4-bit quantized versie (Q4_K_M in llama.cpp-termen) vraagt ongeveer 16 GB VRAM. Dat past op een RTX 4090, een A4000, of een L40S, allemaal kaarten die je in een standaard 19-inch server kwijt kunt. Ter vergelijking: een 70B-model in 4-bit heeft al snel 40 GB nodig, en dwingt je tot multi-GPU setups of dure enterprise-accelerators. Een 8B-model draait dan weer op een laptop, maar faalt bij taken die echte redeneerkracht vereisen, zoals het vergelijken van juridische clausules of het samenvatten van medische dossiers.

Wat me opviel in de benchmarks die in de thread gedeeld werden: Qwen 3.6 27B scoort op MMLU-Pro en GPQA bijna gelijk aan Llama-3-70B, maar met een derde van de parameters. Dat is geen magie, maar het resultaat van betere trainingsdata en een efficiëntere architectuur. Voor Nederlandse toepassingen is er nog een extra voordeel: Qwen 3.6 is getraind op een aanzienlijke hoeveelheid meertalige data, waaronder Nederlands. Uit de logs van een eerste test bij een gemeentelijke organisatie bleek dat het model Nederlandse juridische teksten met 12% hogere BLEU-scores vertaalde dan vergelijkbare Engelstalige modellen die achteraf naar het Nederlands werden gefinetuned.

Technisch: zo draai je het lokaal

De eenvoudigste route is via Ollama. Met één commandoregel haal je het model binnen:

ollama run qwen3.6:27b

Ollama kiest automatisch een geschikte quantisatie. Wil je meer controle, dan kun je met llama.cpp een GGUF-bestand laden en de contextgrootte instellen. Voor documentverwerking is 32k context vaak genoeg, maar Qwen 3.6 ondersteunt native 128k, handig voor lange beleidsnota’s. Een voorbeeldconfiguratie voor een server met 24 GB VRAM:

./llama-server -m qwen3.6-27b-Q4_K_M.gguf -c 32768 -ngl 99

De -ngl 99 zet alle lagen op de GPU. Wil je de context nog verder oprekken naar 128k, dan moet je een paar lagen naar CPU verplaatsen, maar dat kost snelheid. In de praktijk zie ik teams kiezen voor 32k met volledige GPU-offload, omdat de responstijd dan onder de 2 seconden blijft, acceptabel voor een chatinterface.

Een ander punt uit de Hacker News-discussie: Qwen 3.6 27B is verrassend goed in Retrieval-Augmented Generation (RAG). In een test met 500 Nederlandse Wob-verzoeken haalde het model een retrieval accuracy van 89%, tegenover 82% voor een 8B-model. Dat scheelt een hoop handmatig naleeswerk. De truc zit in de embedding-kwaliteit van de onderliggende transformer: de 27B-variant behoudt semantische nuances die kleinere modellen kwijtraken.

De compliance-kant: BIO2, NIS2, AVG en de AI Act

Voor Nederlandse publieke organisaties is modelkeuze geen vrijblijvende keuze. BIO2, NIS2, AVG en de AI Act stellen eisen aan data-opslag, verwerking en controle. Lokale modellen zoals Qwen 3.6 27B bieden een manier om die eisen te halen zonder afstand te doen van functionaliteit. Je houdt de data binnen de eigen muren, en kunt zelf bepalen wie erbij kan. Dat is niet alleen veiliger, maar ook juridisch verantwoord.

Waarom 27B en niet 70B of 8B?

Technisch: zo draai je het lokaal

De eenvoudigste route is via Ollama. Met één commandoregel haal je het model binnen:

ollama run qwen3.6:27b

./llama-server -m qwen3.6-27b-Q4_K_M.gguf -c 32768 -ngl 99

Qwen 3.6 27B: het sweet spot-model voor soevereine AI-infra

Waarom 27B en niet 70B of 8B?

Technisch: zo draai je het lokaal

De compliance-kant: BIO2, NIS2, AVG en de AI Act

AI & Security Intelligence

Advisory met executiekracht

Gerelateerde artikelen

OmniParse: de lokale parsing-laag die je RAG-pipeline soeverein maakt - maar nog geen productieplatform

Odysseus: 57K Stars in 6 Dagen - Maar Niet Geschikt Voor Je Werk

142 tools en géén governance - waarom de populairste AI-engineering toolkit het belangrijkste vergeet

Qwen 3.6 27B: het sweet spot-model voor soevereine AI-infra

Waarom 27B en niet 70B of 8B?

Technisch: zo draai je het lokaal

De compliance-kant: BIO2, NIS2, AVG en de AI Act

AI & Security Intelligence

Advisory met executiekracht

Gerelateerde artikelen

OmniParse: de lokale parsing-laag die je RAG-pipeline soeverein maakt - maar nog geen productieplatform

Odysseus: 57K Stars in 6 Dagen - Maar Niet Geschikt Voor Je Werk

142 tools en géén governance - waarom de populairste AI-engineering toolkit het belangrijkste vergeet