De cijfers van de MIT FutureTech Delphi-studie zijn inmiddels bekend: 18 van de 24 AI-risicodomeinen hebben ≥10% kans op catastrofale uitkomsten tegen 2030. 272 experts. Drie Delphi-rondes. De top vijf: dangerous capabilities, competitive dynamics, weapons & cyberattacks, power centralization, en false information.

Maar er is een stiller verhaal dat niemand vertelt. Het gaat over de infrastructuur waarmee we AI-vooruitgang meten, en het feit dat die infrastructuur géén governance heeft.

PapersWithCode 2.0: van community-index naar research intelligence layer

In mei 2026 herlanceerde Niels Rogge van Hugging Face paperswithcode.co, een solo-revival van de geliefde Papers with Code-site. Het is geen nostalgieproject. In één week bouwde hij features die de oude PWC nooit had: multi-metric leaderboards, paper lineage (predecessor/successor banners), externe papers buiten Arxiv, methodepagina's als eersteklas entiteiten, en circa 3.000 ingebouwde evals, beginnend bij alle modellen die Transformers ondersteunt.

De onderliggende pijplijn is indrukwekkend: 30.000 papers OCR'en met Codex en open OCR-modellen, automatische task- en method-tagging, GitHub-repo-detectie. Wat eerst een handmatig onderhouden community-index was, is nu een AI-gedreven research intelligence layer bovenop het HF-ecosysteem.

De strategische logica is helder. Een paper op PWC linkt naar een HF-model, een HF-dataset, een eval-resultaat, en uiteindelijk een inference endpoint. Van paper naar productie in vijf klikken.

Maar daar zit precies het probleem.

GitHub issue #1: het governance-gat in één scherm

Op 18 mei 2026 opende gebruiker DenisKochetov issue #1 in de paperswithcode-feedback repo:

"What is the best way for users / researchers to contribute new tasks, benchmarks, datasets, papers, and results to the site?"

Hij vraagt niet om een feature. Hij vraagt om het contributor operating model. Hoe voeg je een benchmark toe? Wie valideert SOTA-claims? Hoe worden conflicterende resultaten opgelost? Is er een audit trail?

Drie weken later, op het moment van schrijven, staat het issue open. Geen assignee. Geen labels. Geen milestone.

Het antwoord van Niels was vriendelijk: "I can give you direct edit access on the website using your HF profile. We could perhaps also set up a Discord server for easier discussion."

"Direct edit access." "Perhaps a Discord server."

Dit is geen kwaadwillendheid. Dit is één ontwikkelaar die in zijn eentje een wereldomspannende onderzoeksinfrastructuur herbouwt en simpelweg nog niet aan governance toe is. Maar de implicatie is systemisch.

Wat ontbreekt: de vijf trust boundaries

Een benchmarkplatform heeft minimaal vijf governance-vragen nodig om betrouwbaar te zijn:

Governance-vraag	Waarom kritisch	Status PWC
Hoe voeg je een benchmark toe?	Voorkomt arbitraire dekking en hidden curation bias	Onduidelijk
Wie mag SOTA-resultaten claimen?	Voorkomt leaderboard gaming	Direct edit access
Hoe worden metrics gevalideerd?	Essentieel voor reproduceerbaarheid	Geen publiek proces
Is er een audit trail per wijziging?	Nodig voor trust, rollback en citation hygiene	Niet zichtbaar
Zijn machine-generated enrichments herkenbaar?	Voorkomt AI-extractiefouten als verified fact	Niet gedocumenteerd

Zolang deze vijf vragen geen publiek antwoord hebben, is PapersWithCode.co een discovery-bron, geen authoritative benchmark registry.

En dat is precies wat gereguleerde organisaties moeten weten.

Kimi Delta Attention: 47 papers, nul maturity-labels

Neem Kimi Delta Attention, de lineaire-attentionmodule uit Kimi Linear (Moonshot AI). Geïntroduceerd in 2025. Inmiddels 47 papers die de methode gebruiken. Adoptietempo: extreem.

De techniek is interessant: channel-wise decay met fijnmazigere gating dan Gated DeltaNet, gericht op efficiënter gebruik van beperkte finite-state RNN-memory. Relevant voor lokale LLM's, inference-efficiëntie en long-running agentic workloads.

Maar de methodepagina bevat geen maturity-label. Is Kimi Delta Attention emerging? Validated? Production-proven? Deprecated? Je kunt het niet weten zonder alle 47 papers zelf te lezen. De citation graph is zichtbaar, de betrouwbaarheid van die citaties niet.

Dit is het "snelheid als zelfstandig risico"-probleem. De velocity van method-evolutie, 47 papers in één jaar, betekent dat organisaties onmogelijk kunnen bijhouden welke methoden in hun AI-supply chain zitten. PapersWithCode maakt die snelheid zichtbaar, maar valideert hem niet.

COCO val2017: waarom mAP 66.1 een leugen kan zijn

Kijk naar de COCO val2017 benchmark. De SOTA-progressie is verbluffend: van mAP 37.3 (2019) naar 66.1 (DINOv3 + Plain-DETR + TTA, augustus 2025). Een stijging van 77% in zes jaar.

Het leaderboard toont nu ook FPS naast mAP, een stap vooruit. Maar wat ontbreekt is benchmark-hygiëne:

AP, AP50, AP75 apart? Eén mAP-score maskeert lokalisatiekwaliteit
Hardware? FPS zonder GPU-specificatie is waardeloos
Inputresolutie? Grote invloed op zowel AP als latency
TTA ja/nee? Test-time augmentation kan een score kunstmatig verhogen met 2-3 punten
Pretraining-dataset? Objects365, ImageNet-21k, of synthetic data, niet vergelijkbaar
Val vs test-dev? COCO val2017 is publiek; overfitting door tuning is bewezen

Zonder deze context is "mAP 66.1" een getal zonder betekenis. En dat is gevaarlijk wanneer dat getal modelselectie stuurt in veiligheidskritische toepassingen.

Platformconcentratie: HF als de facto registry

Het derde risico is structureel. Hugging Face combineert nu: models, datasets, Spaces, evals, papers, leaderboards, community-aandacht en inference-infrastructuur. Met PapersWithCode.co wordt daar de SOTA-tracking-laag aan toegevoegd.

Eén platform wordt de de facto registry voor AI-capability-evidence.

Voor gereguleerde sectoren, overheid, gezondheidszorg, financiën, nationale veiligheid, moet je dit behandelen als een third-party intelligence source, niet als neutrale waarheid. Platformconcentratie in AI is geen theoretisch risico; het is een operationeel gegeven dat je architectuur, inkoopbeleid en compliance-rapportage beïnvloedt.

DjimIT's antwoord: radar, geen kompas

De MIT FutureTech-studie zegt: 18 van de 24 risicodomeinen ≥10% catastrofaal onder business as usual. PapersWithCode.co is de infrastructuur die meet of we op schema liggen. En die infrastructuur heeft geen governance.

Voor organisaties die onder de EU AI Act, BIO2 of NIS2 vallen, is het antwoord helder: radar, geen kompas.

Gebruik PapersWithCode.co als signal source, trenddetectie, method discovery, citation tracking. Maar bouw er een eigen verification layer bovenop. Elke SOTA-claim die modelselectie, architectuurkeuzes of managementrapportages stuurt, moet door een provenance-, reproducibility- en risk-control pipeline.

Praktisch betekent dat een genormaliseerd entiteitenmodel waarin benchmarks niet als platte scores worden opgeslagen, maar als gestructureerde claims:

paper → method → benchmark → result_claim → governance_event
Elke claim heeft een verification_status (unverified → cross-referenced → reproduced → audited)
Elke extractie heeft een extraction_confidence (zeker bij AI-gegenereerde metadata)
Numerieke leaderboard-waarden horen in een relationele of graph-database, niet alleen in een vector-store

De kern is discipline: behandel benchmark-claims als intelligence, niet als waarheid.

De ongemakkelijke conclusie

PapersWithCode.co is een indrukwekkend éénmansproject dat de AI-wereld nodig heeft. Het maakt zichtbaar wat anders onzichtbaar blijft: welke methoden winnen terrein, welke benchmarks verschuiven, welke papers bouwen op elkaar voort.

Maar de governance-gap is niet academisch. GitHub issue #1 staat open. Het contributor operating model bestaat niet. De audit trail ontbreekt. En terwijl de MIT-experts waarschuwen voor catastrofale risico's, wordt de meetlat waarlangs we AI-vooruitgang beoordelen onderhouden door één ontwikkelaar met "direct edit access" en "perhaps a Discord server."

Dat is geen kritiek op Niels Rogge. Het is een observatie over waar we als industrie staan: de infrastructuur van AI-kennis is sneller gegroeid dan de governance ervan.

Voor organisaties die AI inkopen, implementeren of auditen: gebruik de radar. Maar vertrouw op je eigen kompas.

Dit artikel verscheen in het kader van DjimIT's doorlopende analyse van AI-governance-infrastructuur. Eerder schreven we over de MIT FutureTech Delphi-studie, agent-geheugen zonder governance, en zero-trust voor AI-agents.

Maar er is een stiller verhaal dat niemand vertelt. Het gaat over de infrastructuur waarmee we AI-vooruitgang meten, en het feit dat die infrastructuur géén governance heeft.

PapersWithCode 2.0: van community-index naar research intelligence layer

De strategische logica is helder. Een paper op PWC linkt naar een HF-model, een HF-dataset, een eval-resultaat, en uiteindelijk een inference endpoint. Van paper naar productie in vijf klikken.

Maar daar zit precies het probleem.

GitHub issue #1: het governance-gat in één scherm

Op 18 mei 2026 opende gebruiker DenisKochetov issue #1 in de paperswithcode-feedback repo:

"What is the best way for users / researchers to contribute new tasks, benchmarks, datasets, papers, and results to the site?"

Drie weken later, op het moment van schrijven, staat het issue open. Geen assignee. Geen labels. Geen milestone.

Het antwoord van Niels was vriendelijk: "I can give you direct edit access on the website using your HF profile. We could perhaps also set up a Discord server for easier discussion."

"Direct edit access." "Perhaps a Discord server."

Wat ontbreekt: de vijf trust boundaries

Een benchmarkplatform heeft minimaal vijf governance-vragen nodig om betrouwbaar te zijn:

Governance-vraag	Waarom kritisch	Status PWC
Hoe voeg je een benchmark toe?	Voorkomt arbitraire dekking en hidden curation bias	Onduidelijk
Wie mag SOTA-resultaten claimen?	Voorkomt leaderboard gaming	Direct edit access
Hoe worden metrics gevalideerd?	Essentieel voor reproduceerbaarheid	Geen publiek proces
Is er een audit trail per wijziging?	Nodig voor trust, rollback en citation hygiene	Niet zichtbaar
Zijn machine-generated enrichments herkenbaar?	Voorkomt AI-extractiefouten als verified fact	Niet gedocumenteerd

Zolang deze vijf vragen geen publiek antwoord hebben, is PapersWithCode.co een discovery-bron, geen authoritative benchmark registry.

En dat is precies wat gereguleerde organisaties moeten weten.

Kimi Delta Attention: 47 papers, nul maturity-labels

Neem Kimi Delta Attention, de lineaire-attentionmodule uit Kimi Linear (Moonshot AI). Geïntroduceerd in 2025. Inmiddels 47 papers die de methode gebruiken. Adoptietempo: extreem.

COCO val2017: waarom mAP 66.1 een leugen kan zijn

Kijk naar de COCO val2017 benchmark. De SOTA-progressie is verbluffend: van mAP 37.3 (2019) naar 66.1 (DINOv3 + Plain-DETR + TTA, augustus 2025). Een stijging van 77% in zes jaar.

Het leaderboard toont nu ook FPS naast mAP, een stap vooruit. Maar wat ontbreekt is benchmark-hygiëne:

AP, AP50, AP75 apart? Eén mAP-score maskeert lokalisatiekwaliteit
Hardware? FPS zonder GPU-specificatie is waardeloos
Inputresolutie? Grote invloed op zowel AP als latency
TTA ja/nee? Test-time augmentation kan een score kunstmatig verhogen met 2-3 punten
Pretraining-dataset? Objects365, ImageNet-21k, of synthetic data, niet vergelijkbaar
Val vs test-dev? COCO val2017 is publiek; overfitting door tuning is bewezen

Zonder deze context is "mAP 66.1" een getal zonder betekenis. En dat is gevaarlijk wanneer dat getal modelselectie stuurt in veiligheidskritische toepassingen.

Platformconcentratie: HF als de facto registry

Eén platform wordt de de facto registry voor AI-capability-evidence.

DjimIT's antwoord: radar, geen kompas

Voor organisaties die onder de EU AI Act, BIO2 of NIS2 vallen, is het antwoord helder: radar, geen kompas.

Praktisch betekent dat een genormaliseerd entiteitenmodel waarin benchmarks niet als platte scores worden opgeslagen, maar als gestructureerde claims:

paper → method → benchmark → result_claim → governance_event
Elke claim heeft een verification_status (unverified → cross-referenced → reproduced → audited)
Elke extractie heeft een extraction_confidence (zeker bij AI-gegenereerde metadata)
Numerieke leaderboard-waarden horen in een relationele of graph-database, niet alleen in een vector-store

De kern is discipline: behandel benchmark-claims als intelligence, niet als waarheid.

De ongemakkelijke conclusie

Dat is geen kritiek op Niels Rogge. Het is een observatie over waar we als industrie staan: de infrastructuur van AI-kennis is sneller gegroeid dan de governance ervan.

Voor organisaties die AI inkopen, implementeren of auditen: gebruik de radar. Maar vertrouw op je eigen kompas.

Radar, geen kompas: waarom de infrastructuur van AI-vooruitgang zelf geen governance heeft

PapersWithCode 2.0: van community-index naar research intelligence layer

GitHub issue #1: het governance-gat in één scherm

Wat ontbreekt: de vijf trust boundaries

Kimi Delta Attention: 47 papers, nul maturity-labels

COCO val2017: waarom mAP 66.1 een leugen kan zijn

Platformconcentratie: HF als de facto registry

DjimIT's antwoord: radar, geen kompas

De ongemakkelijke conclusie