De vraag die niemand stelde

De meeste AI-governance discussies gaan over output-kwaliteit: "Is dit antwoord correct?" Of over veiligheid: "Mag de agent deze tool aanroepen?" MIT's nieuwste paper, Self-Revising Discovery Systems for Science van Fiona Y. Wang en Markus J. Buehler, stelt een fundamentelere vraag: wanneer is een AI-systeem aan het zoeken, en wanneer verandert het het speelveld zelf?

Het antwoord is geen filosofische nuance. Het is een wiskundig raamwerk met directe governance-implicaties.

Drie operaties, drie governance-regimes

De paper maakt een scherp onderscheid dat in de praktijk vrijwel nooit wordt gemaakt:

Operatie	Wat het doet	Governance-implicatie
Retrieval	Iets bestaands ophalen binnen een vast schema	Lichtste toezicht, het artefact bestond al elders
Search	Nieuwe combinatie vinden binnen hetzelfde vocabulaire	Standaard review, het schema verandert niet
Discovery	Het schema zelf verandert: nieuwe typen, operaties of verifiers	Zwaarste toezicht, het beoordelingskader verschuift

Het probleem dat de paper signaleert: veel AI-scientist systemen doen vooral retrieval en search, maar claimen discovery. Het verschil is niet academisch, het bepaalt hoe je verifiers ontwerpt, provenance auditeert, en vooruitgang meet.

Het wiskundige skelet: copresheaves en Kan-extensions

De auteurs gebruiken categorietheorie niet als decoratie, maar als engineering-spec voor provenance. De kerncomponenten:

Regime. Een vast regime b met schema-categorie S_b, de getypeerde wereld van artefacttypes en toegestane operaties. Denk: sequence → structure → contact graph → symbolic model → score.

Copresheaf. De systeemtoestand is een functor I_t : S_b → Set die per type de concrete artefacten bevat. Geen abstractie, dit is wat er feitelijk in je filesystem, database of Qdrant-collectie zit.

Category of elements. De gerealiseerde provenance-DAG is geen losse metadata-laag, maar de category of elements ∫ I_t: objecten zijn getypeerde artefacten, morfismen zijn uitgevoerde operaties. De auteurs noemen dit "the typed provenance graph."

Endofunctorial update. Binnen een vast regime mag een agent artefacten toevoegen of superseden, maar alleen als oude provenance behouden blijft. De engineeringvoorwaarden zijn concreet: stabiele artefact-ID's, typed tool signatures, expliciete parent lineage, append-only of expliciete supersession, en geen stille merge of delete van geaccepteerde artefacten.

Regime transition. Discovery ontstaat wanneer het schema verandert via u : S_b → S_b'. Oude artefacten worden getransporteerd via left Kan extension Lan_u I_t. Het residu, wat niet verklaard kan worden door simpel transport, is de eigenlijke discovery-content. Wiskundig meetbaar, niet subjectief.

Deze laatste stap is cruciaal voor governance: je kunt objectief vaststellen of een AI-output herinterpretatie van bestaande kennis is, of écht iets nieuws toevoegt.

Builder/Breaker: ontdekking met een MDL-gate

De eerste implementatie is een eiwitmechanica-systeem waarin een symbolisch wereldmodel wordt herzien onder een Minimum Description Length gate.

De Breaker kiest eiwitten die faalmodi van het huidige model blootleggen. De Builder stelt DAG-edits voor. De gate accepteert alleen als het nieuwe model de bredere evidentie beter comprimeert na betaling van modelcomplexiteit:

L(M, D) = L_model(M) + L_data(D | M)

Het resultaat: een ontdekte wet voor eiwitflexibiliteit als mode-conditioned compliance. In begrijpelijke taal: lokale elasticiteit verklaart experimentele B-factor variatie vooral wanneer die samenvalt met deelname aan een dominante collectieve beweging. Een residue dat aan alle kanten zacht is maar niet meebeweegt met de globale mode, draagt weinig bij.

De Kan-transport audit toont aan dat ModeConditionedCompliance niet generator-bereikbaar is vanuit het oude schema, het vereist een nieuw productmorfisme dat pas in het uitgebreide regime beschikbaar komt. Dit is wiskundig aantoonbare ontdekking, niet een betere fit in dezelfde parametrische ruimte.

Slechts 25 van 388 voorstellen (6,4%) overleven de MDL-gate. De gate is niet decoratief, hij is de primaire filter die ontdekking scheidt van ruis.

Het misschien wel belangrijkste implementatiedetail: afgewezen modellen blijven behouden als audit-objecten. In volwassen AI-governance is een afgewezen hypothese niet "rommel", maar noodzakelijk bewijs voor waarom een keuze valide is.

CategoryScienceClaw: discovery als typed provenance graph

De tweede case is architectonisch het interessantst voor enterprise AI. CategoryScienceClaw is een categorische laag bovenop ScienceClaw, Buehler's agentic discovery platform, die dezelfde principes operationaliseert in een gedistribueerd systeem met:

Typed skills met morphism signatures
Immutable artifacts met content hashes en parent lineage
Open needs als getypeerde gaten die door compatibele morfismen gevuld moeten worden
Pressure scoring voor gedecentraliseerde coördinatie
Workflow mutation met status: accepted, rejected, superseded, pruned
Publiek discours via het Infinite-platform met claim links, votes, en verifier signalen

Een fiber-network mechanica-run illustreert de aanpak: het systeem vergelijkt een simpele isotropic fiber-count descriptor met een orientation-tensor anisotropic stiffness surrogate. De AIC-gate (Δ = 123.87) accepteert het anisotrope model, maar, en dit is de kern, het isotrope model wordt bewaard als contrast-object. Modelselectie wordt zelf provenance.

Wat dit betekent voor enterprise AI-governance

De paper levert impliciet een compleet governance-raamwerk dat direct aansluit op ISO 27001, NIST AI RMF en de EU AI Act. De vijf componenten van een agentic discovery system zijn namelijk exact de componenten die high-risk AI-systemen moeten auditen:

Papercomponent	Governance-equivalent
Schema van artefacttypes en operaties	Data-classificatie + toegestane operaties
Copresheaf (actuele artefacten)	Asset-inventaris met typing
Category of elements (provenance)	Audit trail
Gate (MDL, AIC, verifier)	Human oversight + risk acceptance
Regime transition (Kan transport + residu)	Change management met impact-analyse

De Kan-transport audit, die objectief meet wat écht nieuw is versus herinterpretatie, is een compliance-droom. Het geeft een wiskundig antwoord op de vraag die elke AI-auditor stelt: "Is deze output een nieuwe claim die extra verificatie vereist?"

Voor enterprise AI betekent dit concreet: zonder typed provenance en regime-transition governance kun je geen betrouwbare claims doen over zelflerende of zelfverbeterende agents. Logs, traces en tool calls zijn onvoldoende, ze maken geen onderscheid tussen "meer output" en "een ander beoordelingskader."

De vertaling naar implementatie

De paper is conceptueel sterk, maar categorietheorie is zwaar. Voor engineeringteams moet het vertaald worden naar concrete contracten. Een minimale implementatie van typed agent provenance:

{
  "artifact_id": "stable-content-addressed-id",
  "artifact_type": "prompt|trace|api_call|evidence|gate|claim",
  "producer_agent": "agent-name",
  "operation_signature": "input_types → output_types",
  "parents": ["artifact_id_1", "artifact_id_2"],
  "content_hash": "sha256",
  "status": "accepted|rejected|superseded|blocked|candidate",
  "gate": {
    "gate_type": "policy|test|security|quality|provenance",
    "result": "pass|fail|warning"
  },
  "regime": {
    "schema_version": "vX",
    "residual_claim": "what became newly representable"
  }
}

Dit is geen theoretische wenslijst, het is de minimale datastructuur om de paper's inzichten operationeel te maken in een enterprise AI-stack.

De vijflaagse architectuur

Vanuit governance-perspectief vertaalt de paper zich naar een vijflaags model:

Artifact Ledger, Append-only opslag van alle artefacten: prompts, traces, API calls, outputs, configs, testresultaten
Typed Schema Registry, Definieert artefacttypes, operation signatures, allowed transitions
Provenance Graph, DAG of hypergraph met multi-parent synthesis. Vector search (Qdrant) is een projectie, niet de source of truth
Gate and Verifier Layer, Policy gates, security gates, quality gates, replay checks, OpenSpec acceptance
Dashboard and Discourse Layer, Niet "wat gebeurde er?" maar "welke claims zijn geaccepteerd, verworpen, welke regime transitions zijn actief?"

De essentie: dashboards en agent-traces zijn projecties van een sterker bewijsmodel, niet de bron van waarheid zelf.

De security-dimensie die de paper niet behandelt

De paper is sterk op provenance en epistemologie, maar minder expliciet op security. Voor enterprise implementatie moet er een threat-model laag bovenop:

Risico	Mitigatie
Silent artifact overwrite	Append-only storage, expliciete supersession
False discovery claim	Regime-transition gate + residual diagnostic
Poisoned open needs	Signed needs, source scoring, policy filter
Gate manipulation	Onafhankelijke verifier, replay, dual control
Provenance spoofing	Content hashes, signed manifests, immutable logs
Dashboard theatre	Gate-backed metrics, rejected alternatives zichtbaar
Agent collusion	Adversarial breaker role, independent validation

De paper behandelt prompt injection, agent collusion, of evaluator capture niet, maar het raamwerk is uitbreidbaar genoeg om die als extra gate-types toe te voegen.

Conclusie

Deze paper is geen plug-and-play framework, maar een conceptuele blauwdruk voor volwassen agentic AI governance. De waarde zit niet in "categorietheorie gebruiken", maar in het afdwingen van discipline:

Geen claim zonder typed artifact
Geen artifact zonder lineage
Geen discovery zonder regime transition
Geen regime transition zonder gate
Geen gate zonder replaybaar bewijs
Geen afwijzing zonder bewaarde rejected alternative

Voor organisaties die autonome AI-systemen bouwen of auditen, is de praktische conclusie helder: bouw niet alleen een memory- of logging-systeem, maar een self-revising, typed, gate-backed provenance operating model.

De retrieval/search/discovery drieslag is niet alleen een wetenschapsfilosofisch onderscheid, het is de fundering voor een complete generatie AI-governance tools die niet vertrouwen op "een mens moet ernaar kijken", maar op wiskundig aantoonbare operatie-classificatie.

Gebaseerd op: Wang, F. Y. & Buehler, M. J. (2026). Self-Revising Discovery Systems for Science: A Categorical Framework for Agentic Artificial Intelligence. arXiv:2606.01444.

De vraag die niemand stelde

Het antwoord is geen filosofische nuance. Het is een wiskundig raamwerk met directe governance-implicaties.

Drie operaties, drie governance-regimes

De paper maakt een scherp onderscheid dat in de praktijk vrijwel nooit wordt gemaakt:

Operatie	Wat het doet	Governance-implicatie
Retrieval	Iets bestaands ophalen binnen een vast schema	Lichtste toezicht, het artefact bestond al elders
Search	Nieuwe combinatie vinden binnen hetzelfde vocabulaire	Standaard review, het schema verandert niet
Discovery	Het schema zelf verandert: nieuwe typen, operaties of verifiers	Zwaarste toezicht, het beoordelingskader verschuift

Het wiskundige skelet: copresheaves en Kan-extensions

De auteurs gebruiken categorietheorie niet als decoratie, maar als engineering-spec voor provenance. De kerncomponenten:

Deze laatste stap is cruciaal voor governance: je kunt objectief vaststellen of een AI-output herinterpretatie van bestaande kennis is, of écht iets nieuws toevoegt.

Builder/Breaker: ontdekking met een MDL-gate

De eerste implementatie is een eiwitmechanica-systeem waarin een symbolisch wereldmodel wordt herzien onder een Minimum Description Length gate.

L(M, D) = L_model(M) + L_data(D | M)

Slechts 25 van 388 voorstellen (6,4%) overleven de MDL-gate. De gate is niet decoratief, hij is de primaire filter die ontdekking scheidt van ruis.

CategoryScienceClaw: discovery als typed provenance graph

Typed skills met morphism signatures
Immutable artifacts met content hashes en parent lineage
Open needs als getypeerde gaten die door compatibele morfismen gevuld moeten worden
Pressure scoring voor gedecentraliseerde coördinatie
Workflow mutation met status: accepted, rejected, superseded, pruned
Publiek discours via het Infinite-platform met claim links, votes, en verifier signalen

Wat dit betekent voor enterprise AI-governance

Papercomponent	Governance-equivalent
Schema van artefacttypes en operaties	Data-classificatie + toegestane operaties
Copresheaf (actuele artefacten)	Asset-inventaris met typing
Category of elements (provenance)	Audit trail
Gate (MDL, AIC, verifier)	Human oversight + risk acceptance
Regime transition (Kan transport + residu)	Change management met impact-analyse

De vertaling naar implementatie

De paper is conceptueel sterk, maar categorietheorie is zwaar. Voor engineeringteams moet het vertaald worden naar concrete contracten. Een minimale implementatie van typed agent provenance:

{
  "artifact_id": "stable-content-addressed-id",
  "artifact_type": "prompt|trace|api_call|evidence|gate|claim",
  "producer_agent": "agent-name",
  "operation_signature": "input_types → output_types",
  "parents": ["artifact_id_1", "artifact_id_2"],
  "content_hash": "sha256",
  "status": "accepted|rejected|superseded|blocked|candidate",
  "gate": {
    "gate_type": "policy|test|security|quality|provenance",
    "result": "pass|fail|warning"
  },
  "regime": {
    "schema_version": "vX",
    "residual_claim": "what became newly representable"
  }
}

Dit is geen theoretische wenslijst, het is de minimale datastructuur om de paper's inzichten operationeel te maken in een enterprise AI-stack.

De vijflaagse architectuur

Vanuit governance-perspectief vertaalt de paper zich naar een vijflaags model:

Artifact Ledger, Append-only opslag van alle artefacten: prompts, traces, API calls, outputs, configs, testresultaten
Typed Schema Registry, Definieert artefacttypes, operation signatures, allowed transitions
Provenance Graph, DAG of hypergraph met multi-parent synthesis. Vector search (Qdrant) is een projectie, niet de source of truth
Gate and Verifier Layer, Policy gates, security gates, quality gates, replay checks, OpenSpec acceptance
Dashboard and Discourse Layer, Niet "wat gebeurde er?" maar "welke claims zijn geaccepteerd, verworpen, welke regime transitions zijn actief?"

De essentie: dashboards en agent-traces zijn projecties van een sterker bewijsmodel, niet de bron van waarheid zelf.

De security-dimensie die de paper niet behandelt

De paper is sterk op provenance en epistemologie, maar minder expliciet op security. Voor enterprise implementatie moet er een threat-model laag bovenop:

Risico	Mitigatie
Silent artifact overwrite	Append-only storage, expliciete supersession
False discovery claim	Regime-transition gate + residual diagnostic
Poisoned open needs	Signed needs, source scoring, policy filter
Gate manipulation	Onafhankelijke verifier, replay, dual control
Provenance spoofing	Content hashes, signed manifests, immutable logs
Dashboard theatre	Gate-backed metrics, rejected alternatives zichtbaar
Agent collusion	Adversarial breaker role, independent validation

De paper behandelt prompt injection, agent collusion, of evaluator capture niet, maar het raamwerk is uitbreidbaar genoeg om die als extra gate-types toe te voegen.

Conclusie

Geen claim zonder typed artifact
Geen artifact zonder lineage
Geen discovery zonder regime transition
Geen regime transition zonder gate
Geen gate zonder replaybaar bewijs
Geen afwijzing zonder bewaarde rejected alternative

Gebaseerd op: Wang, F. Y. & Buehler, M. J. (2026). Self-Revising Discovery Systems for Science: A Categorical Framework for Agentic Artificial Intelligence. arXiv:2606.01444.

Wanneer ontdekt AI écht iets? MIT's categorie-theoretisch antwoord op de retrieval-search-discovery kloof

De vraag die niemand stelde

Drie operaties, drie governance-regimes

Het wiskundige skelet: copresheaves en Kan-extensions

Builder/Breaker: ontdekking met een MDL-gate

CategoryScienceClaw: discovery als typed provenance graph

Wat dit betekent voor enterprise AI-governance

De vertaling naar implementatie

De vijflaagse architectuur

De security-dimensie die de paper niet behandelt

Conclusie