Stop met agents bouwen. Begin met agents meten.

Ik heb een haat-liefdeverhouding met AI-benchmarks. Aan de ene kant: eindelijk een manier om niet meer te gissen of m'n agents nog doen wat ze moeten doen. Aan de andere kant: de meeste evaluaties in de AI-wereld zijn window dressing. Een leaderboard-score op een dataset die niets met jouw use case te maken heeft, gepresenteerd alsof het een kwaliteitskeurmerk is.

DeepEval pakt het anders aan. Het noemt zichzelf de Pytest voor LLM-applicaties. Die vergelijking klopt, maar de echte waarde zit eronder. DeepEval is het eerste open-source framework dat systematisch meet of RAG-pipelines, agents en MCP-tools nog doen wat ze moeten doen.

Zo'n 16.000 sterren op GitHub, Apache 2.0. Dat is fors voor een dev-tool in deze ruimte.

Wat DeepEval feitelijk doet

Je schrijft testcases voor LLM-output, draait metrieken via deepeval test run, en failures worden build-failures in CI/CD. Het werkt in de taal die engineeringteams al twintig jaar kennen:

from deepeval import assert_test
from deepeval.metrics import GEval
from deepeval.test_case import LLMTestCase

def test_chatbot_correctness():
    correctness_metric = GEval(
        name="Correctness",
        criteria="Determine if the actual output is correct based on the expected output.",
        evaluation_params=[SingleTurnParams.ACTUAL_OUTPUT, SingleTurnParams.EXPECTED_OUTPUT],
        threshold=0.5
    )
    test_case = LLMTestCase(
        input="What if these shoes don't fit?",
        actual_output="You have 30 days to get a full refund at no extra cost.",
        expected_output="We offer a 30-day full refund at no extra costs.",
        retrieval_context=["All customers are eligible for a 30 day full refund at no extra costs."]
    )
    assert_test(test_case, [correctness_metric])

Een falende metric is een falende build. Dat quality-gate-model is niet nieuw. Alleen: in de AI-wereld bestond het niet. Tot nu.

Het metriekenlandschap

DeepEval dekt vijf domeinen. RAG: faithfulness, contextual precision, RAGAS. Agents: task completion, tool correctness, step efficiency. MCP: toolgebruik en multi-turn evaluatie. Conversational: knowledge retention, turn relevancy. Safety: bias, toxicity, PII leakage, hallucination.

Framework-neutraal. OpenAI, Anthropic, LangChain, CrewAI, LlamaIndex. Of lokaal, via Ollama of wat je zelf draait. Je kunt evalueren met elk model.

Het addertje onder het gras

Vrijwel alle metrieken leunen op LLM-as-a-judge. Scores van 0 tot 1, slagen boven een threshold. Dat betekent dat DeepEval niet de waarheid meet, maar een beoordelingsprocedure operationaliseert.

Vijf risico's die ik in de praktijk ben tegengekomen.

Judge bias. Je judge-model beloont de verkeerde stijl. Oplossing: meerdere judges, calibration sets, human review.

Eval overfitting. Agents optimaliseren op de testset. Oplossing: holdout sets, adversarial cases, rotatie van golden datasets.

Threshold theater. Een score van 0.72 oogt objectief maar is contextafhankelijk. Leg altijd de rationale, metric-keuze en confidence vast.

Data leakage. deepeval login stuurt testcases naar Confident AI. Voor gereguleerde omgevingen is dat geen detail, het is een architectuurbesluit. Default: local-only.

False assurance. Een groene test betekent niet productiegeschiktheid. Combineer met red teaming, monitoring, logging, incident response.

En eerlijk? De setup is verrassend snel. Maar de judge die je scores geeft. Daar zit het venijn.

Drie lagen, oplopende complexiteit

Ik adviseer niet één DeepEval-deployment. Ik adviseer drie lagen.

Laag 1: Smoke evals in CI/CD. Twintig tot vijftig testcases voor kritieke flows. RAG-vraag met bekende context, structured JSON-output, tool call met verplichte argumenten, hallucination-test, PII-leakage-test. De build breekt als basiskwaliteit degradeert.

Laag 2: Regression evals per model. Dezelfde dataset tegen Claude, OpenAI, Gemini, lokale modellen. Meet cost, latency, pass rate, hallucination, tool correctness. Maak een model placement matrix: welke workload hoort bij welk model. Provider-keuze wordt evidence-based, niet op onderbuik.

Laag 3: Agentic eval harness. Traces gebruiken om te meten of de agent de juiste tools koos, argumenten correct waren, stappen efficiënt waren, het plan consistent was, en of het taakdoel bereikt is zonder privilege creep.

DeepEval versus de rest

Tool	Beste rol	Waarom niet gewoon dit
DeepEval	Developer-native evals, CI/CD	Beste voor test automation
Ragas	RAG-evaluatie	Smaller, RAG-only
Promptfoo	Prompt/model regression	Minder rijk voor agent traces
LangSmith	Observability + tracing	Meer platform lock-in
Phoenix/Arize	Observability	Minder geschikt als eval harness
DeepTeam	Red teaming	Complementair, bouwt bovenop DeepEval

DeepEval is geen vervanger voor LangSmith of Phoenix. Het is de open-source test execution layer die ervóór zit. En die ontbreekt bij de meeste organisaties.

Het oordeel

DeepEval is het eerste volwassen evaluatieframework voor AI. Niet omdat het alle governance oplost, maar omdat het een praktische brug slaat tussen software engineering en AI-kwaliteit. Tests, thresholds, CI/CD, regressies, build gates. In dezelfde taal die engineeringteams al spreken.

Voor wie dit relevant is: engineering leads die CI/CD voor AI-agents willen, AI-architecten die model-switching evidence-based willen maken, compliance officers die AI-kwaliteit auditeerbaar moeten krijgen. En overheidsorganisaties met BIO2-eisen die lokaal moeten kunnen evalueren.

Eerder bespraken we MCP-security volgens de NSA, 9Router's positie in de AI-routing stack, en CUSP's bevindingen over AI-forecasting.

Stop met agents bouwen. Begin met agents meten.

Zo'n 16.000 sterren op GitHub, Apache 2.0. Dat is fors voor een dev-tool in deze ruimte.

Wat DeepEval feitelijk doet

Je schrijft testcases voor LLM-output, draait metrieken via deepeval test run, en failures worden build-failures in CI/CD. Het werkt in de taal die engineeringteams al twintig jaar kennen:

from deepeval import assert_test
from deepeval.metrics import GEval
from deepeval.test_case import LLMTestCase

def test_chatbot_correctness():
    correctness_metric = GEval(
        name="Correctness",
        criteria="Determine if the actual output is correct based on the expected output.",
        evaluation_params=[SingleTurnParams.ACTUAL_OUTPUT, SingleTurnParams.EXPECTED_OUTPUT],
        threshold=0.5
    )
    test_case = LLMTestCase(
        input="What if these shoes don't fit?",
        actual_output="You have 30 days to get a full refund at no extra cost.",
        expected_output="We offer a 30-day full refund at no extra costs.",
        retrieval_context=["All customers are eligible for a 30 day full refund at no extra costs."]
    )
    assert_test(test_case, [correctness_metric])

Een falende metric is een falende build. Dat quality-gate-model is niet nieuw. Alleen: in de AI-wereld bestond het niet. Tot nu.

Het metriekenlandschap

Framework-neutraal. OpenAI, Anthropic, LangChain, CrewAI, LlamaIndex. Of lokaal, via Ollama of wat je zelf draait. Je kunt evalueren met elk model.

Het addertje onder het gras

Vrijwel alle metrieken leunen op LLM-as-a-judge. Scores van 0 tot 1, slagen boven een threshold. Dat betekent dat DeepEval niet de waarheid meet, maar een beoordelingsprocedure operationaliseert.

Vijf risico's die ik in de praktijk ben tegengekomen.

Judge bias. Je judge-model beloont de verkeerde stijl. Oplossing: meerdere judges, calibration sets, human review.

Eval overfitting. Agents optimaliseren op de testset. Oplossing: holdout sets, adversarial cases, rotatie van golden datasets.

Threshold theater. Een score van 0.72 oogt objectief maar is contextafhankelijk. Leg altijd de rationale, metric-keuze en confidence vast.

Data leakage. deepeval login stuurt testcases naar Confident AI. Voor gereguleerde omgevingen is dat geen detail, het is een architectuurbesluit. Default: local-only.

False assurance. Een groene test betekent niet productiegeschiktheid. Combineer met red teaming, monitoring, logging, incident response.

En eerlijk? De setup is verrassend snel. Maar de judge die je scores geeft. Daar zit het venijn.

Drie lagen, oplopende complexiteit

Ik adviseer niet één DeepEval-deployment. Ik adviseer drie lagen.

DeepEval versus de rest

Tool	Beste rol	Waarom niet gewoon dit
DeepEval	Developer-native evals, CI/CD	Beste voor test automation
Ragas	RAG-evaluatie	Smaller, RAG-only
Promptfoo	Prompt/model regression	Minder rijk voor agent traces
LangSmith	Observability + tracing	Meer platform lock-in
Phoenix/Arize	Observability	Minder geschikt als eval harness
DeepTeam	Red teaming	Complementair, bouwt bovenop DeepEval

DeepEval is geen vervanger voor LangSmith of Phoenix. Het is de open-source test execution layer die ervóór zit. En die ontbreekt bij de meeste organisaties.

Het oordeel

Eerder bespraken we MCP-security volgens de NSA, 9Router's positie in de AI-routing stack, en CUSP's bevindingen over AI-forecasting.

Stop met agents bouwen. Begin met agents meten.

Stop met agents bouwen. Begin met agents meten.

Wat DeepEval feitelijk doet

Het metriekenlandschap

Het addertje onder het gras

Drie lagen, oplopende complexiteit

DeepEval versus de rest

Het oordeel