De vraag die ik het vaakst krijg van klanten is niet "welk model moet ik kiezen?" maar "hoe weet ik of mijn AI-agent veilig is?" Tot nu toe was het antwoord meestal: consultant inhuren, handmatige review doen, rapport schrijven. Duurt weken, kost duizenden euro's, en het antwoord is verouderd zodra iemand de system prompt aanpast.

Vorige week ontdekte ik iFixAi. Een open-source CLI-tool die je AI-agent in vijf minuten langs 32 inspecties haalt en een letter grade geeft. Het is geen vervanger van een volwassen security review, maar het is wél het eerste instrument dat me het gevoel geeft dat AI-governance operationeel kán worden. En dat is meer dan de meeste tools claimen.

Wat het wél is, en wat niet

iFixAi positioneert zichzelf met opvallende eerlijkheid. De README zegt: v1.0.0 heeft geen gepubliceerde baselines. De standaarddrempels zijn policy defaults, niet empirisch gekalibreerd. Absolute scores zijn "informative, not authoritative."

Dat is precies de juiste disclaimer. Te veel AI-evaluatietools presenteren zich als "nu weet je of je AI veilig is." iFixAi zegt: "nu weet je of je agent beter of slechter wordt over tijd, en hoe die scoort ten opzichte van een andere configuratie op dezelfde fixture."

Het is een diagnostisch instrument. Geen certificeringsloket. Geen veiligheidsgarantie. En dat is een kracht, geen zwakte, want het enige wat erger is dan geen AI-veiligheidstool, is een tool die je ten onrechte een veilig gevoel geeft.

De architectuur die het anders maakt

Fixture-driven. Domeinkennis zit niet in testcode, maar in YAML/JSON-fixtures met rollen, gebruikers, tools, permissies, databronnen, policies en test cases. Je schrijft één fixture voor jouw domein en draait dezelfde inspecties tegen elk model of elke agent-configuratie. Dat maakt het conceptueel bruikbaar voor gereguleerde context: publieke sector, AI Act, GDPR, ISO 27001, OWASP LLM/Agentic risks.

Cross-judge by default. Je agent wordt niet door zichzelf beoordeeld. De tool eist een tweede provider-credential en weigert self-judge tenzij je expliciet --eval-mode self doorgeeft. Bij meerdere judges in full mode wordt een conservatieve tie-break toegepast met per-judge attributie. Dat voorkomt de "slager keurt eigen vlees"-valkuil die de meeste evaluatietools ondermijnt.

Governance-interface bewust. Dit is de belangrijkste innovatie. iFixAi test niet alleen model-output, maar probeert governance-capabilities te meten: tool authorization, audit trail, override paths, policy versioning, structured evidence. De methodologie gebruikt structural checks zoals authorize_tool, get_audit_trail, apply_override en invoke_tool, en valt niet terug op LLM self-report als die capabilities ontbreken. Veel tools blijven hangen in prompt-response scoring. iFixAi forceert de vraag: heeft je agent-platform überhaupt een meetbare governance-interface?

De vijf pilaren

De 32 inspecties zijn verdeeld over vijf risicocategorieën. Geen academische abstracties, bruikbare executive risk-dimensies.

Pilaar	Wat het blootlegt	Relevant voor
Fabrication	Verzonnen bronnen, ongegronde claims, audit-gaps	RAG, juridische/beleidscontext, kenniswerk
Manipulation	Prompt injection, privilege escalation, policy bypass	Agent tools, deploy actions, CI/CD
Deception	Verborgen doelen, covert side tasks, sandbagging	Autonome agents, long-horizon workflows
Unpredictability	Drift, context distortion, instabiele beslissingen	Multi-turn agents, memory, automation
Opacity	Auditability, traceability, regulatory readiness	AI Act, ISO 42001, NIST AI RMF

De tool maakt een scherp onderscheid tussen standaardmodus (CI, drift tracking, sanity checks) en full mode (vendorvergelijking met hand-built fixture en minimaal twee judges). Dat is het juiste onderscheid, een simpele self-judge setup is methodologisch zwak, en iFixAi erkent dat expliciet.

De zwaktes die je moet kennen

Kalibratie ontbreekt. Geen gepubliceerde baselines voor frontier-modellen. Default thresholds B01=1.00, B08=0.95, pass=0.85 zijn policy defaults. Dat betekent: absolute scores zijn nuttig voor relatieve vergelijking, niet voor claims als "compliant", "safe" of "production-ready."

LLM-as-judge fragiliteit. Full mode multi-judge ensembles zijn beter dan self-judge, maar blijven gevoelig voor rubric-interpretatie, modeldrift, providerwijzigingen en benchmark contamination. De scoring is binair, een evidence item is pass of fail, wat scherp is, maar te rigide voor complexe governance-eigenschappen.

Versie-inconsistentie. De GitHub-releases tonen v2.2.0, maar pyproject.toml in de bron bevat nog version = "1.0.0". Voor supply-chain betrouwbaarheid is dat een rood vlaggetje: release tags, package versioning, changelog en distributie moeten strak consistent zijn voordat je dit in een serieuze pipeline opneemt.

Governance synthetische scoring. De tool kan governance synthetiseren uit de diagnostic body in plaats van echte runtime-metingen te gebruiken. Dat verlaagt frictie, maar voor regulated-sector gebruik moet je synthetische scores vermijden en alleen echte meetpunten accepteren.

Maturity. 441 stars, 79 forks, release van vandaag. Tractie is positief, maar het project is vroege fase. Geen onafhankelijke validatie, geen langdurige track record, beperkte community.

Waar het wél goed in is

Ondanks de beperkingen is iFixAi inhoudelijk beter dan de meeste "AI safety scorecard"-tools. Het test niet alleen model-output, maar probeert governance surfaces te meten. Het dwingt het juiste gesprek af: waar zit de enforcement, waar zit de audit trail, waar zit de tool authorization, waar zit de override, en waar is bewijs in plaats van intentie?

De v2.2 release bevat inhoudelijk relevante verbeteringen: strengere B01 tool-governance scoring, B02 non-LLM-layer checks, B03 auditability, B04 deterministic override, en een securityfix voor whitespace-injection bypass in forbidden-phrase matching. De maintainers verbeteren dus actief benchmark-integriteit en adversarial robustness.

Concrete adoptiestrategie

Ik zou iFixAi op vier plekken inzetten, niet als eindcontrole, wel als signaalversterker:

CI drift gate. Draai ifixai run --strategic bij elke wijziging in prompts, tools, MCP-configuratie, provider routing of policy wrappers. Niet als harde release blocker, maar als trendmeter. "Deze deploy verandert B08 van 87% naar 82%, onderzoeken."

Fixture-controlled provider comparison. Zelfde fixture tegen cloud frontier models, lokale Ollama, OpenRouter en HTTP-compatible endpoints. Vergelijk niet "modelkwaliteit" maar "agent behavior under governance pressure."

Governance-interface test. Laat iFixAi falen waar je platform geen authorize_tool, audit trail, override of policy version trace levert. Dat is geen slecht testresultaat, het is architectuurfeedback.

Pre-audit evidence pack. Combineer scorecards met threat model, SBOM, prompt registry, tool registry, policy-as-code, OpenTelemetry traces en decision logs. Alleen dan wordt het bruikbaar voor AI Act, NIS2 of BIO2 evidence.

Hoe ik het zelf zou testen

Eerst een eigen domein-fixture schrijven met rollen zoals developer, security reviewer, platform admin en auditor; tools zoals shell, repo read/write, GitHub PR, CI/CD deploy, secret scanner en model router; en policies voor least privilege, no-secret exposure, no-deploy-without-approval en prompt-injection containment.

Dan loslaten op drie targets: lokale HTTP-compatible endpoint, LiteLLM proxy naar cloud providers, policy-wrapped agent runtime. De belangrijkste metric is niet de absolute grade, die is indicatief, maar: wordt de agent beter of slechter na een wijziging in prompt, model, routing, memory, MCP-tooling of governance wrapper?

Eindoordeel

iFixAi is een van de interessantste AI alignment diagnostics die ik tot nu toe in de open-source wereld heb gezien. Geen "AI safety scorecard"-vaporware, maar een concreet instrument dat governance surfaces meet in plaats van alleen model-output.

Maar het is geen volwassen compliance-platform. Geen certificering. Geen veiligheidsgarantie. Voor nu: CI-driftsignaal en vendor-vergelijkingsinstrument. Voor later, mits kalibratie, community-validatie en versie-consistentie verbeteren, potentieel een serieuze governance-laag.

Vijf minuten. Eén commando. Eén letter grade die je niet moet vertrouwen, maar die je wél elke dag moet checken.

Wat het wél is, en wat niet

De architectuur die het anders maakt

De vijf pilaren

De 32 inspecties zijn verdeeld over vijf risicocategorieën. Geen academische abstracties, bruikbare executive risk-dimensies.

Pilaar	Wat het blootlegt	Relevant voor
Fabrication	Verzonnen bronnen, ongegronde claims, audit-gaps	RAG, juridische/beleidscontext, kenniswerk
Manipulation	Prompt injection, privilege escalation, policy bypass	Agent tools, deploy actions, CI/CD
Deception	Verborgen doelen, covert side tasks, sandbagging	Autonome agents, long-horizon workflows
Unpredictability	Drift, context distortion, instabiele beslissingen	Multi-turn agents, memory, automation
Opacity	Auditability, traceability, regulatory readiness	AI Act, ISO 42001, NIST AI RMF

De zwaktes die je moet kennen

Maturity. 441 stars, 79 forks, release van vandaag. Tractie is positief, maar het project is vroege fase. Geen onafhankelijke validatie, geen langdurige track record, beperkte community.

Waar het wél goed in is

Concrete adoptiestrategie

Ik zou iFixAi op vier plekken inzetten, niet als eindcontrole, wel als signaalversterker:

Hoe ik het zelf zou testen

Eindoordeel

Vijf minuten. Eén commando. Eén letter grade die je niet moet vertrouwen, maar die je wél elke dag moet checken.

iFixAi: een diagnostic voor AI-misalignment - niet je certificeringsloket

Wat het wél is, en wat niet

De architectuur die het anders maakt

De vijf pilaren

De zwaktes die je moet kennen

Waar het wél goed in is

Concrete adoptiestrategie

Hoe ik het zelf zou testen

Eindoordeel