Mei 2026. In drie weken tijd verschijnen drie papers die, zonder op elkaar te zijn afgestemd, samen een compleet nieuw fundament schetsen voor AI-agents. Elk pakt een ander deel van hetzelfde probleem: hoe bouw je agents die niet alleen werken, maar ook uitlegbaar, controleerbaar en veilig zijn? Het antwoord is een architectuur die we de "Auditable AI Stack" kunnen noemen.

De drie papers:

ActiveGraph (Nakajima, 21 mei): De event log ís de agent. Deterministische replay, cheap forking, totale lineage.
EvolveMem (UNC, 13 mei): Het geheugen verbetert zichzelf via een autonome AutoResearch-loop.
SkillsVote (MemTensor, 18 mei): Lifecycle governance voor Agent Skills, profiling, recommendation, attribution, controlled evolution.

Samen beantwoorden ze de drie fundamentele vragen van auditable AI:

ActiveGraph: Hoe weet je wát de agent deed?, De event log is onveranderlijk, replayable, en volledig traceerbaar tot de individuele model call.
EvolveMem: Hoe weet je of de agent het juiste deed met de juiste informatie?, Het geheugen diagnosticeert zijn eigen faalpatronen en verbetert autonoom.
SkillsVote: Hoe weet je of de agent de juiste kennis gebruikte?, Elke skill change is evidence-gated, elke beslissing heeft een attribution trail.

Geen van deze papers claimt empirische superioriteit op benchmarks. Ze claimen iets fundamentelers: een architectuurfilosofie die auditability, reproduceerbaarheid en governance als first-class properties behandelt, niet als bijproducten.

De drie lagen van de Auditable AI Stack

Laag 1: ActiveGraph, het fundament

"The log is not a byproduct; the log is the agent itself."

Yohei Nakajima, de maker van BabyAGI, keert de conventionele agent-architectuur 180 graden om. Waar LangChain, CrewAI en AutoGen de LLM centraal stellen en logging als bijzaak behandelen, maakt ActiveGraph van de append-only event log de bron van waarheid. De graph, typed objects en relations, is een deterministische projectie van die log. Behaviors reageren op graph-shape patronen en schrijven nieuwe events terug.

Dit levert drie eigenschappen op die geen enkel bestaand framework biedt:

Deterministic replay: elke run is byte-identiek reproduceerbaar vanaf de log
Cheap forking: branch een run op elk punt, de shared prefix komt uit cache, gratis
Total lineage: elk object traceert terug naar de exacte model call die het produceerde

Voor de EU AI Act is dit de heilige graal. Artikel 50 eist transparantie over hoe AI-beslissingen tot stand komen. ActiveGraph geeft die transparantie per constructie, niet als achteraf aangeplakte logging.

Laag 2: EvolveMem, het geheugen

"The retrieval infrastructure itself is a first-class optimization target."

Het team van UNC-Chapel Hill, UC Berkeley en UCSC pakt een blinde vlek aan die elk geheugensysteem deelt: de content evolueert, maar de retrieval-infrastructuur blijft bevroren in de configuratie van dag één. EvolveMem doorbreekt dit met een gesloten AutoResearch-loop: Evaluate → Diagnose → Propose → Guard → Repeat.

Een LLM leest per-vraag failure logs, identificeert root causes, en stelt gerichte configuratiewijzigingen voor. Een meta-analyzer valideert elke wijziging met automatische revert bij regressie en random exploratie bij stagnatie. Het resultaat: van 30,5% naar 54,3% F1 op LoCoMo, 78% verbetering, volledig autonoom, in zeven rondes.

Het systeem ontdekte bovendien drie nieuwe configuratiedimensies die niet in het originele ontwerp zaten: entity-swap, query-decompositie, en answer verification. En geëvolueerde configuraties transfereren positief naar andere benchmarks, geen catastrofaal vergeten maar generaliseerbare retrieval-principes.

Laag 3: SkillsVote, de kennis

"Indiscriminate updates can pollute future context."

MemTensor uit Shanghai pakt het derde stuk: skills. Agent skills, gestructureerde kennisartefacten met SKILL.md, scripts, references en templates, zijn inmiddels op marketplace-schaal. SkillsVote profileert 1M+ open-source skills en introduceert een evidence-gated evolution loop die alleen succesvolle, attribution-ondersteunde ervaring toelaat tot de library.

Het geniale zit in de subtask-level attribution. Waar bestaande systemen task-level success/failure gebruiken (te grof) of step-level extractie (te fijn), splitst SkillsVote elke trajectory in semantisch complete subtasks. Elke subtask krijgt een van elf attributiecategorieën, van success_skill_used_with_extra_exploration tot fail_external_env. Alleen de eerste mag library updates triggeren.

Het resultaat: offline geëvolueerde skill libraries transfereren naar ongerelateerde taken met +7,9 procentpunt verbetering op Terminal-Bench 2.0, zonder model updates. De library leert operationele patronen, niet taak-specifieke trucjes.

De stack in samenhang

De kracht van deze drie papers is dat ze complementair zijn, niet overlappend:

┌──────────────────────────────────────────┐
│ SkillsVote: Kennis lifecycle governance  │ ← Welke kennis gebruikt de agent?
├──────────────────────────────────────────┤
│ EvolveMem: Zelf-evoluerend geheugen      │ ← Gebruikt hij de juiste informatie?
├──────────────────────────────────────────┤
│ ActiveGraph: Event-sourced agent staat   │ ← Weten we wat hij deed?
└──────────────────────────────────────────┘

ActiveGraph geeft je de fundering: een onveranderlijk, replayable log van alles wat de agent doet. EvolveMem geeft je het mechanisme: een geheugen dat zichzelf diagnosticeert en verbetert. SkillsVote geeft je de governance: een levenscyclus voor de kennis die de agent gebruikt.

Samen vormen ze een antwoord op de vraag die elke CIO van een overheidsorganisatie zou moeten stellen: "Kan ik aan mijn toezichthouder uitleggen wat mijn AI-agent deed, waarom hij het deed, en hoe ik weet dat zijn kennis klopt?"

Waarom dit nú relevant is

Mei 2026 is niet toevallig de maand waarin deze papers uitkomen. De tijdlijn is significant:

De EU AI Act treedt in fasen in werking. De verplichtingen voor hoog-risico AI-systemen worden vanaf augustus 2026 van kracht.
BIO2 wordt aangescherpt voor AI-toepassingen binnen de overheid.
De NIS2/Cyberbeveiligingswet vereist dat vitale organisaties hun AI supply chain kunnen auditen.

En tegelijkertijd: alle drie de tools draaien lokaal. ActiveGraph: pip install activegraph en de demo draait offline. EvolveMem/SimpleMem: Docker met LLM_PROVIDER=ollama. SkillsVote: open-source corpus profiling, lokaal draaibaar.

Dit is de definitie van sovereign AI: state-of-the-art agent-architectuur die geen data naar de cloud stuurt, volledig auditeerbaar is, en aan Europese regelgeving voldoet.

DjimIT's positie

DjimIT is de enige consultancy in Nederland die op het snijvlak van AI-architectuur, compliance en soevereine infrastructuur opereert. Deze drie papers definiëren de agenda voor de komende twee jaar. Onze propositie:

Architectuur: Agents kunnen op het ActiveGraph-fundament bouwen, niet op de conventionele LLM-loop
Geheugen: Wij deployen EvolveMem/SimpleMem met Ollama, soeverein, lokaal, zelfverbeterend
Governance: Wij passen SkillsVote's lifecycle-model toe op elke skill library, EU AI Act-compliant vanaf dag één

De Auditable AI Stack is geen toekomstmuziek. De papers zijn open-source, de code is beschikbaar, de benchmarks zijn reproduceerbaar. Het enige wat ontbreekt is iemand die het integreert voor de Nederlandse publieke sector.

Dat is wat DjimIT doet.

ActiveGraph: github.com/yoheinakajima/activegraph, Apache 2.0 • EvolveMem/SimpleMem: github.com/aiming-lab/SimpleMem, Apache 2.0 • SkillsVote: github.com/MemTensor/skills-vote.

De drie papers:

ActiveGraph (Nakajima, 21 mei): De event log ís de agent. Deterministische replay, cheap forking, totale lineage.
EvolveMem (UNC, 13 mei): Het geheugen verbetert zichzelf via een autonome AutoResearch-loop.
SkillsVote (MemTensor, 18 mei): Lifecycle governance voor Agent Skills, profiling, recommendation, attribution, controlled evolution.

Samen beantwoorden ze de drie fundamentele vragen van auditable AI:

ActiveGraph: Hoe weet je wát de agent deed?, De event log is onveranderlijk, replayable, en volledig traceerbaar tot de individuele model call.
EvolveMem: Hoe weet je of de agent het juiste deed met de juiste informatie?, Het geheugen diagnosticeert zijn eigen faalpatronen en verbetert autonoom.
SkillsVote: Hoe weet je of de agent de juiste kennis gebruikte?, Elke skill change is evidence-gated, elke beslissing heeft een attribution trail.

De drie lagen van de Auditable AI Stack

Laag 1: ActiveGraph, het fundament

"The log is not a byproduct; the log is the agent itself."

Dit levert drie eigenschappen op die geen enkel bestaand framework biedt:

Deterministic replay: elke run is byte-identiek reproduceerbaar vanaf de log
Cheap forking: branch een run op elk punt, de shared prefix komt uit cache, gratis
Total lineage: elk object traceert terug naar de exacte model call die het produceerde

Laag 2: EvolveMem, het geheugen

"The retrieval infrastructure itself is a first-class optimization target."

Laag 3: SkillsVote, de kennis

"Indiscriminate updates can pollute future context."

De stack in samenhang

De kracht van deze drie papers is dat ze complementair zijn, niet overlappend:

┌──────────────────────────────────────────┐
│ SkillsVote: Kennis lifecycle governance  │ ← Welke kennis gebruikt de agent?
├──────────────────────────────────────────┤
│ EvolveMem: Zelf-evoluerend geheugen      │ ← Gebruikt hij de juiste informatie?
├──────────────────────────────────────────┤
│ ActiveGraph: Event-sourced agent staat   │ ← Weten we wat hij deed?
└──────────────────────────────────────────┘

Waarom dit nú relevant is

Mei 2026 is niet toevallig de maand waarin deze papers uitkomen. De tijdlijn is significant:

De EU AI Act treedt in fasen in werking. De verplichtingen voor hoog-risico AI-systemen worden vanaf augustus 2026 van kracht.
BIO2 wordt aangescherpt voor AI-toepassingen binnen de overheid.
De NIS2/Cyberbeveiligingswet vereist dat vitale organisaties hun AI supply chain kunnen auditen.

Dit is de definitie van sovereign AI: state-of-the-art agent-architectuur die geen data naar de cloud stuurt, volledig auditeerbaar is, en aan Europese regelgeving voldoet.

DjimIT's positie

Architectuur: Agents kunnen op het ActiveGraph-fundament bouwen, niet op de conventionele LLM-loop
Geheugen: Wij deployen EvolveMem/SimpleMem met Ollama, soeverein, lokaal, zelfverbeterend
Governance: Wij passen SkillsVote's lifecycle-model toe op elke skill library, EU AI Act-compliant vanaf dag één

Dat is wat DjimIT doet.

ActiveGraph: github.com/yoheinakajima/activegraph, Apache 2.0 • EvolveMem/SimpleMem: github.com/aiming-lab/SimpleMem, Apache 2.0 • SkillsVote: github.com/MemTensor/skills-vote.

Van black-box naar glass-box - drie papers die auditable AI mogelijk maken

De drie lagen van de Auditable AI Stack

Laag 1: ActiveGraph, het fundament

Laag 2: EvolveMem, het geheugen

Laag 3: SkillsVote, de kennis

De stack in samenhang

Waarom dit nú relevant is

DjimIT's positie