Stop met agents bouwen. Begin met agents meten.
AI InfrastructuurStop met agents bouwen. Begin met agents meten.
De agentic AI-gemeenschap heeft een blinde vlek. We bouwen agents alsof het software is — maar we testen ze alsof het magie is. Een agent die "meestal werkt" is geen product. Het is een tijdbom. DeepEval verandert dat: het is de eerste open-source evaluatieframework dat AI-kwaliteit even serieus neemt als softwarekwaliteit. Maar — en dit is cruciaal — governance vraagt meer dan een test.
Het governance-gat
Elke organisatie die AI-agents inzet, zit vroeg of laat met dezelfde vraag: "doet dit ding nog wat het moet doen?"
Het antwoord is meestal: "weet ik niet." En dat is precies het probleem.
DeepEval (15.7K ⭐, 1.5K forks, 9.482 commits, Apache 2.0) positioneert zichzelf als de Pytest voor LLM-applicaties. De analogie klopt: het laat je testcases definiëren voor LLM-output, metrieken draaien via deepeval test run, en failures build-failures laten worden in CI/CD. Maar de echte waarde zit dieper: het is de eerste eval execution layer die agentic workflows, RAG-pipelines én MCP-integraties afdekt met een consistent metriekenmodel.
Dit is precies de laag die bij de meeste agentic stacks ontbreekt. Niet "meer agents bouwen", maar systematisch meten of agents, RAG-pipelines en LLM-apps nog doen wat ze moeten doen.
Wat DeepEval concreet doet
DeepEval laat je testcases definiëren en metrieken draaien op LLM-output. De analogie met Pytest is geen marketing:
from deepeval import assert_test
from deepeval.metrics import GEval
from deepeval.test_case import LLMTestCase
def test_chatbot_correctness():
correctness_metric = GEval(
name="Correctness",
criteria="Determine if the actual output is correct based on the expected output.",
evaluation_params=[SingleTurnParams.ACTUAL_OUTPUT, SingleTurnParams.EXPECTED_OUTPUT],
threshold=0.5
)
test_case = LLMTestCase(
input="What if these shoes don't fit?",
actual_output="You have 30 days to get a full refund at no extra cost.",
expected_output="We offer a 30-day full refund at no extra costs.",
retrieval_context=["All customers are eligible for a 30 day full refund at no extra costs."]
)
assert_test(test_case, [correctness_metric])
Dit draai je via deepeval test run test_chatbot.py — en het integreert native met CI/CD. Een falende metric wordt een falende build. Dat is precies het "quality gate"-model dat softwareteams al decennia gebruiken.
Functionele dekking: 5 metrieken-categorieën
DeepEval's kracht zit in de breedte van het metrieken-ecosysteem:
| Domein | Metrics | Relevant voor | |--------|---------|---------------| | RAG | answer relevancy, faithfulness, contextual recall, contextual precision, contextual relevancy, RAGAS | Document Q&A, kennisbanken, compliance-documenten | | Agents | task completion, tool correctness, goal accuracy, step efficiency, plan adherence, plan quality, tool use, argument correctness | Claude Code, OpenCode, Hermes — élke agent in je stack | | MCP | MCP task completion, MCP use, multi-turn MCP use | Djimit2, Presenton, Confident AI — élke MCP-integratie | | Conversational | knowledge retention, conversation completeness, turn relevancy, turn faithfulness, role adherence | Chatbots, multi-turn agent-loops | | Safety | bias, toxicity, PII leakage, misuse, hallucination | Basis voor AI-safety controls |
Daarnaast biedt DeepEval G-Eval (research-backed LLM-as-judge voor willekeurige criteria) en DAG (graph-based metric builder) — waarmee je custom metrics bouwt voor compliance-domeinen zoals BIO2, NIS2 en EU AI Act.
De ondersteuning is framework-neutraal: OpenAI, OpenAI Agents, LangChain, LangGraph, Pydantic AI, CrewAI, Anthropic, AWS AgentCore, LlamaIndex. En lokaal: Ollama staat in de dev-dependencies. Je kunt evalueren met élk model — lokaal of via API.
Architectuurpositie: eval execution layer, niet governance-platform
DeepEval is géén observability-platform, policy-engine of volledige AI-governance-suite. Het is primair een eval execution layer. In een volwassen enterprise AI-stack ziet dat er zo uit:
AI App / Agent / RAG Pipeline
↓
Tracing / instrumentation
↓
DeepEval testcases + metrics
↓
CI/CD quality gates
↓
Eval result store / dashboard
↓
Risk register, model card, release evidence
In de DjimIT-context — met Claude Code, OpenCode, LiteLLM, Hermes, MCP, lokale inferentie en agentic harnesses — levert DeepEval waarde op vier assen:
- Regression gate: voorkomt dat promptwijzigingen, modelwissels of tool-updates kwaliteit breken
- Model switching harness: vergelijk Claude versus OpenAI versus Gemini versus lokale Ollama op dezelfde taakset
- Agent behavior test layer: meet tool correctness, task completion, step efficiency en plan adherence
- RAG validation layer: meet faithfulness, contextual precision en recall
- Evidence layer voor governance: mits resultaten worden vastgelegd in een auditbaar format
Het LLM-as-judge probleem — en vijf mitigaties
De grootste inhoudelijke beperking van DeepEval is dat de meeste metrieken leunen op LLM-as-a-judge. De documentatie stelt zelf dat vrijwel alle predefined metrics dit gebruiken. Scores lopen van 0 tot 1 en slagen boven een threshold — standaard 0.5.
Dat betekent: DeepEval meet niet "de waarheid", maar operationaliseert een beoordelingsprocedure. Voor enterprise governance zijn daarom minimaal deze vijf controles nodig:
| Risico | Impact | Mitigatie |
|--------|--------|-----------|
| Judge bias | Een judge-model beloont verkeerde stijl of fout redeneerpatroon | Gebruik meerdere judges, calibration sets en human review |
| Eval overfitting | Agents optimaliseren op testset in plaats van echte robuustheid | Gebruik holdout sets, adversarial cases en rotatie van goldens |
| Threshold theater | Score 0.72 lijkt objectief maar is contextafhankelijk | Leg rationale, metric-keuze en confidence vast |
| Data leakage | Testdata of prompts kunnen naar platformlaag syncen bij deepeval login | Default local-only, cloud expliciet uitschakelen tenzij DPIA akkoord |
| False assurance | Passing evals worden gezien als productiegeschiktheid | Combineer met red teaming, monitoring, logging, incident response |
Die vierde — data leakage — is concreet. De README adviseert deepeval login en vermeldt dat testcases automatisch naar het Confident AI-platform worden gelogd. Voor gereguleerde omgevingen is dat geen detail maar een architectuurbesluit.
Drie implementatielagen
Ik adviseer niet één DeepEval-deployment, maar drie gescheiden lagen met oplopende complexiteit:
Laag 1: Smoke evals in CI/CD
Gebruik 20 tot 50 testcases voor kritieke flows:
- RAG-vraag met bekende context
- Structured JSON-output
- Tool call met verplichte argumenten
- Agent-task met expected outcome
- Hallucination/faithfulness test
- PII-leakage test
Doel: build breekt als basiskwaliteit degradeert.
Laag 2: Regression evals per model/provider
Gebruik dezelfde dataset tegen meerdere modellen:
- Claude / OpenAI / Gemini / GLM / lokale Ollama
- Meet cost, latency, pass rate, hallucination, tool correctness
- Maak een "model placement matrix": welke workload hoort bij welk model
Doel: provider-keuze evidence-based maken, niet op gevoel.
Laag 3: Agentic eval harness
Gebruik traces om te meten:
- Heeft de agent de juiste tools gekozen?
- Waren argumenten correct?
- Waren stappen efficiënt?
- Was het plan consistent?
- Heeft de agent taakdoel bereikt zonder privilege creep?
Doel: agentgedrag bestuurbaar maken.
Governance-control tabel
Voor een gereguleerde omgeving zijn deze minimale controls verplicht:
| Control | Implementatie | |---------|---------------| | Eval Factsheet | Documenteer doel, scope, dataset, metrics, judge-model, thresholds, beperkingen | | Golden dataset governance | Versioneer testsets, markeer confidentialiteit, review per domein | | Judge calibration | Vergelijk judge-scores periodiek met menselijke beoordeling | | CI/CD evidence | Sla eval-resultaten op als build artefact | | Release gate | Geen promotie naar productie zonder minimum score en risicobeoordeling | | Privacy mode | Geen automatische cloud logging tenzij expliciet goedgekeurd | | Red-team linkage | Combineer DeepEval met DeepTeam, OWASP LLM Top 10, NIST AI RMF | | Drift monitoring | Periodiek evals opnieuw draaien bij model-, prompt-, data- of toolwijzigingen |
Dit sluit aan bij de bredere ontwikkeling dat AI-evaluaties zelf beter gedocumenteerd moeten worden. Het concept "Eval Factsheets" — evaluatiemethoden transparant vastleggen langs context, scope, structure, method en alignment — wordt essentieel nu benchmarks en LLM-as-judge-methoden anders moeilijk reproduceerbaar blijken.
DeepEval versus alternatieven
| Tool | Beste rol | Verschil met DeepEval | |------|-----------|----------------------| | DeepEval | Developer-native evals, CI/CD, agent/RAG metrics | Sterk voor test automation | | Ragas | RAG-evaluatie | Smaller, meer RAG-specifiek | | Promptfoo | Prompt/model regression testing | Simpel, goed voor prompt matrices, minder rijk voor agent traces | | LangSmith | Observability en LangChain tracing | Sterk platform, meer lock-in | | Phoenix/Arize | Observability en tracing | Beter voor monitoring, minder als Pytest-style eval harness | | DeepTeam | Red teaming LLM-systemen | Complementair, gebouwd bovenop DeepEval |
DeepEval is geen vervanger voor LangSmith of Phoenix. Het is de open-source test execution layer die ervóór zit — en die bij veel organisaties simpelweg ontbreekt.
Eindoordeel
8/10 voor engineeringteams die serieus LLM-apps, RAG en agents willen testen.
Niet omdat DeepEval alle governance oplost — dat doet het niet. Maar omdat het een praktische brug slaat tussen software engineering en AI-evaluatie. Het maakt evals uitvoerbaar in dezelfde taal als reguliere softwarekwaliteit: tests, thresholds, CI/CD, regressies en build gates.
Voor het DjimIT-agentic-OS: adopteren als lokale eval-harness, niet als enige kwaliteitsplatform. Combineer met:
- OpenTelemetry of LangSmith/Phoenix voor observability
- DeepTeam of eigen red-team suites voor adversarial testing
- Policy-as-code voor release gates
- Eval Factsheets voor auditability
- Een eigen golden dataset registry voor domeinspecifieke kwaliteit
Voor wie is dit?
- Engineering leads die CI/CD voor AI-agents willen invoeren
- AI-architecten die model-switching evidence-based willen maken
- Compliance officers die AI-kwaliteit auditeerbaar moeten maken
- Overheidsorganisaties die BIO2-classificeerbare AI-evaluatie nodig hebben (lokaal + Ollama)
DjimIT ondersteunt organisaties bij het inrichten van AI-kwaliteitsborging met DeepEval — van smoke evals en regression harnesses tot complete governance control frameworks voor de Nederlandse publieke sector. Neem contact op voor een AI Quality Assurance Scan.
Dit artikel is onderdeel van DjimIT's doorlopende analyse van AI-infrastructuur. Eerder bespraken we MCP-security volgens de NSA, 9Router's positie in de AI-routing stack, en CUSP's bevindingen over AI-forecasting.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten — direct in uw inbox.
Doorlopend Advies
Wilt u structurele begeleiding op AI, security & compliance?
Met een Advisory Subscription heeft u een externe sparringpartner die meedenkt op strategisch en technisch niveau — zonder de overhead van een fulltime dienstverband. Vanaf €1.500 per maand, maandelijks opzegbaar.
Ontdek Advisory Subscription →