Van modelkeuze naar gedragsobservability: wat Microsofts AI-Engineering-Coach betekent voor agentic governance
AI & ArchitectuurDe vraag was jarenlang: welk model gebruikt je team? GPT-4 of Claude? Gemini of Llama? De vraag was verkeerd gesteld. De echte vraag is: welk gedrag produceren je AI-agents structureel? Hoe vaak keuren ze code goed zonder review? Hoe vaak draaien terminalscripts onbewaakt? Welke prompts keren terug, en welke context-strategieën leiden tot reproduceerbare output?
Microsofts AI-Engineering-Coach geeft het begin van een antwoord.
Geen tool, maar een observability-laag
AI-Engineering-Coach is een VS Code-extensie, open source, MIT-gelicenseerd, 1.9K stars in één maand. Maar het is fundamenteel iets anders dan de gemiddelde developer-tool. Geen AI-assistent die code voor je schrijft. Geen prompt-bibliotheek. Geen model-router.
Het is een lokale observability-laag voor agentic engineering.
De extensie leest je bestaande AI-sessielogs, van Claude, Codex, OpenCode, GitHub Copilot (VS Code, CLI, Xcode), en parseert ze naar gestructureerde dashboards. Geen data verlaat je machine. Zero telemetry. Read-only. Maar de inzichten die het genereert zijn verrassend diep.
Drie functionele blokken:
Observe, Dashboards met practice scores, Gantt-tijdlijnen van sessies, screenshot galleries. Je ziet niet alleen wat je deed, maar wanneer en in welke volgorde.
Measure, Code volume per taal, per model, per harness. Activiteitsheatmaps (7×24 matrix). Work-life balance signalen. Je ziet patronen die je niet voelde aankomen: dinsdagochtend is je piek voor AI-output, vrijdagmiddag schakel je vier keer vaker van model.
Improve, 45 anti-pattern rules, skill finder, context health checks, rule editor, rule playground. Dit is niet "kijk hoe productief je bent." Dit is "hier is waar je engineeringproces lekt."
De rule engine is de echte innovatie
De 45 regels zijn geen hardcoded checks in TypeScript. Elke regel is een zelfstandig Markdown-bestand met YAML-frontmatter en een kleine domeinspecifieke taal (DSL). Geen code-wijziging nodig om een nieuwe regel toe te voegen.
De vijf praktijkcategorieën:
| Categorie | Voorbeelden |
|---|---|
| prompt-quality | lazy-prompting, verbose-output, low-markdown-ratio |
| session-hygiene | abandon-sessions, mega-sessions, session-drift |
| code-review | yolo-mode, speed-accept, vibe-coding |
| tool-mastery | model-overreliance, agent-mode-for-asks, mcp-tool-bloat |
| context-management | excessive-file-context, no-file-context, instruction-bloat |
De regels die je meteen raken als je ze leest: YOLO Mode, severity high, detecteert wanneer >90% van tool-acties auto-approved zijn. Je agent draait onbewaakt. Model Overreliance, >80% van requests naar één model. Runaway Agent Loops, oneindige tool-retry cycli. Weekend Overwork, wellbeing-signaal dat ook een HR-compliance trigger is.
De regels werken op drie trust-niveaus: built-in (shipped met de extensie), personal (~/.ai-engineer-coach/rules/), en project (<workspace>/.ai-engineer-coach/rules/). Projectregels kun je inchecken in een repo, teambrede governance, versioned, auditable.
Daarnaast registreert de extensie 12 MCP-tools onder een @aicoach chat participant: summary, patterns, insights, wellbeing, contextHealth, harnessComparison, workflows, en meer. Elke tool wrapt een Analyzer-methode en retourneert gestructureerde JSON. De data blijft lokaal, maar het MCP-endpoint maakt hem programmatisch opvraagbaar.
Wat goed is, en wat ontbreekt
De sterke punten zijn evident. Local-first architectuur, parsing en analytics draaien volledig op je eigen machine. Multi-harness ondersteuning, niet één tool, maar je hele agentic ecosysteem in één dashboard. Een exportfunctie die Markdown en JSON summaries genereert, direct bruikbaar voor evidence chains. En een DSL die teams zelf kunnen uitbreiden met organisatie-specifieke policies.
Maar het project is jong. Versie 0.1.0. Geen gepubliceerde releases op het moment van schrijven, terwijl de README wél een "Prebuilt VSIX" installatiepad noemt. De disclaimer is glashelder: "This project is an open-source community effort by Microsoft employees. It is not an official Microsoft product." Voor enterprise-adoptie betekent dat: geen SLA, geen supportverwachting, geen automatische compliance door het Microsoft-logo.
Het grotere governance-gat: wat de tool niet doet.
Geen data-classificatie, de extensie weet niet of je tegen een productiedatabase praat of tegen een testbestand. Geen compliance-rapportage, geen BIO2, NIS2, of AI Act evidence-packs. Geen role-based access, iedereen met filesystem-toegang ziet alle sessiedata. Geen retention policy, logs blijven lokaal, maar er is geen purge-mechanisme. Geen audit trail voor rule-activaties, je kunt niet bewijzen dat een policy actief was op moment X.
Dit is exact het patroon dat we eerder signaleerden bij PapersWithCode: de technische laag is indrukwekkend, de governance-laag bestaat niet.
De compliance-paradox
De wellbeing-features, weekend overwork, late-night coding, burnout risk, illustreren de spanning perfect. Aan de ene kant zijn dit signalen die elke engineering manager wil zien. Aan de andere kant: werknemersmonitoring zonder transparant governance-raamwerk is een AVG-schending die wacht om te gebeuren.
"Local analysis" is niet hetzelfde als "compliance safe." Lokale verwerking beperkt het datalekrisico, maar je moet nog steeds kijken naar dataminimalisatie, bewaartermijnen, toegangscontrole, exportbeveiliging en doelbinding. De AI-sessielogs die deze extensie parseert kunnen prompts, codefragmenten, repositorypaden, issue-informatie en interne besluitvorming bevatten. Dat is high-sensitivity telemetry, ook als die nooit je machine verlaat.
Hier ligt een directe consulting opportunity. De EU AI Act Art. 4 vereist dat organisaties "ervoor zorgen dat hun personeel over een passend niveau van AI-geletterdheid beschikt." AI-Engineering-Coach levert de metrics, practice scores, anti-pattern trends, agentic readiness, maar geen compliance-rapportage. De ontbrekende laag is een governance-wrapper die van deze metrics een auditable evidence-pack maakt.
Faseeradvies voor enterprise-adoptie
Voor organisaties die AI-Engineering-Coach willen inzetten als onderdeel van hun agent governance stack, is een gefaseerde aanpak essentieel:
| Fase | Actie | Doel |
|---|---|---|
| 0. Discovery | Repo inspecteren: package-lock, parsers, webview CSP, filesystem access, Copilot API calls | Supply chain risk assessment |
| 1. Build | Lokaal bouwen of in devcontainer via npm ci & npm run package | Gecontroleerde VSIX, geen prebuilt binary |
| 2. Pilot | Alleen op geschoonde testlogs draaien; valideren of outbound traffic écht nul is | Gedragsvalidatie |
| 3. Rules | Eigen regels toevoegen: missing-openspec-proposal, unsafe-agent-autonomy, no-provenance-schema | Organisatie-specifieke governance |
| 4. Dashboard | Alleen samenvattingen en findings exporteren; ruwe logs blijven lokaal | Evidence chain zonder privacy-risico |
De sleutel is discipline: AI-Engineering-Coach is een read-only evidence collector, geen autonome policy engine. Het vertelt je wat er gebeurt, het handhaaft niets.
De verschuiving die ertoe doet
Wat me het meest raakt aan dit project is niet de techniek. Het is dat Microsoft hiermee een volwassen thema betreedt: AI engineering governance verschuift van modelkeuze naar werkpraktijk-observability.
De vraag "welk model?" was altijd een verkeerde vraag. Alsof je een bouwvakker vraagt of hij een Makita of een DeWalt boormachine gebruikt, en niet of hij een helm draagt. AI-Engineering-Coach vraagt voor het eerst de juiste vragen: hoe vaak keur je code goed zonder review? Hoe vaak draait een agent onbewaakt? Welke prompts keren terug als patronen? Hoe gezond is je context-strategie?
Voor organisaties die onder de AI Act, BIO2 of NIS2 vallen, is dit geen nice-to-have. Het is de meetlaag die aantoont dat je AI-geletterdheid niet alleen een beleidsdocument is, maar een meetbare praktijk. De 45 anti-pattern rules zijn een startpunt, geen eindpunt, het DSL-model betekent dat elke organisatie zijn eigen governance-regels kan definiëren.
De observability-laag is er. De governance-laag moet nog gebouwd worden. En dat is precies waar het interessant wordt.
Dit artikel maakt deel uit van DjimIT's doorlopende analyse van agentic governance-infrastructuur. Lees ook onze analyses van PapersWithCode's governance-gap, zero-trust voor AI-agents, en de MIT FutureTech Delphi-studie.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten, direct in uw inbox.
Security & AI Operating Model
Advisory met executiekracht
Van BIO2 en NIS2 tot EU AI Act, embedded in uw operating model, niet als extern project. Maandelijks opzegbaar, met assessments als bewijsvoering.