CUSP: Waarom frontier-AI niet kan voorspellen — en waarom dat gevaarlijk is
AI & ArchitectuurEen model dat onzekerheid slecht kalibreert, is niet alleen onnauwkeurig — het is bestuurlijk risicovol. Dat is de kernboodschap van CUSP, een nieuwe benchmark van Oxford, Stanford, het Allen Institute for AI en Sakana AI. Het paper, eerder deze week ingediend op arXiv (2605.22681), is een van de belangrijkste anti-hype papers van 2026. Het snijdt dwars door de claim dat frontier-modellen wetenschappelijke ontdekking al autonoom kunnen sturen.
Wat CUSP is — en waarom 4.760 events
CUSP staat voor Cutoff-conditioned Unseen Scientific Progress. Het is een temporeel-gegrond evaluatiekader waarin zes frontier-modellen — GPT-5.4, GPT-4o, Claude Sonnet 4.5, DeepSeek R1, LLaMA 3.3 70B en GPT-OSS 20B — moeten voorspellen of wetenschappelijke doorbraken plausibel, mechanistisch verklaarbaar, oplossingsgericht en temporeel voorspelbaar zijn.
De benchmark bevat 4.760 wetenschappelijke events, 17.429 gestructureerde forecasting-taken, verspreid over zes domeinen (AI, biologie, chemie, fysica, geneeskunde, materiaalkunde) met elk zes subdomeinen. Elk event is gekoppeld aan een precieze datum — en dát is de sleutel. CUSP test niet of een model achteraf een mooi verhaal kan vertellen. Het test of een model kan voorspellen voordat iets gebeurt.
Vier dimensies worden getest:
| Dimensie | Wat getest wordt | Type | |----------|-----------------|------| | Feasibility assessment | Kan het model voorspellen óf een doorbraak gaat lukken? | Binair (Yes/No) | | Mechanistic reasoning | Kan het de causale mechanismen achter de ontdekking beredeneren? | MCQ (4 opties) | | Generative solution design | Kan het de oplossing genereren die de ontdekking mogelijk maakte? | Open-ended (FRQ, 0–10) | | Temporal prediction | Kan het voorspellen wanneer de doorbraak plaatsvindt? | Regressie (datum) |
De vier bevindingen die ertoe doen
1. Kennis is geen foresight
Modellen kunnen vaak uit meerdere plausibele kandidaten de juiste technische richting kiezen — GPT-5.4 scoort 0.819 op MCQ's. Maar bij de vraag of een wetenschappelijke claim gerealiseerd zal worden, presteren alle modellen rond kansniveau: 0.453–0.519 op binary prediction (kans = 0.50). Het model herkent wat logisch klinkt — niet wat werkelijk gaat gebeuren.
Die asymmetrie is fundamenteel. Een model dat 81,9% van de tijd het juiste mechanisme kan aanwijzen uit vier opties, zakt terug naar gok-niveau zodra je vraagt: "Maar gaat dit ook écht lukken?"
2. Domeinheterogeniteit: AI is voorspelbaarder dan biologie
De timing van AI-vooruitgang blijkt beter voorspelbaar dan doorbraken in biologie, scheikunde en fysica. Dat is logisch verklaarbaar: AI-literatuur is benchmark-gedreven, publiceert snel en heeft duidelijke metriekcycli. Biologie en chemie hebben langere experimentele cycli, verborgen labwerk en complexere causale mechanismen.
Maar de strategische implicatie is scherper: hoe verder van compute-scaling, hoe blinder het model.
3. Cutoff-invariantie: meer data lost dit niet op
Dit is het meest belastende resultaat. Modelprestaties zijn grotendeels ongevoelig voor de vraag of een event vóór of na de training-cutoff valt. De auteurs meten een knowledge gap (Δ-know) en een forecasting gap (Δ-fore). Extra pre-cutoff kennis verbetert prestaties, maar sluit de forecasting gap niet — en het gat wordt juist groter voor high-citation advances.
Bij GPT-5.4 op date prediction: Δ-know = 0.070, maar Δ-fore = 0.436. Het model profiteert zes keer meer van post-event hindsight dan van echte forward-looking reasoning. Anders gezegd: het is een patroonherkenner, geen forecaster.
4. Calibratie-falen: overal overconfident
Alle zes modellen zijn systematisch overconfident. De Expected Calibration Error (ECE, 10 bins) ligt structureel boven 0.10 — en voor date prediction-taken boven 0.25. De overconfidence gap (confidence minus accuracy) is universeel positief:
| Model | MCQ Overconfidence | Binary Overconfidence | Date Overconfidence | |-------|-------------------|----------------------|-------------------| | GPT-5.4 | +0.391 | +0.500 | +0.741 | | Claude S4.5 | +0.242 | +0.288 | +0.683 | | DeepSeek R1 | +0.247 | +0.316 | +0.594 | | LLaMA 3.3 | +0.434 | +0.200 | +0.583 |
Bovendien vertonen modellen sterke response biases: GPT-4o en GPT-OSS hebben een systematische "Nee"-bias, LLaMA 3.3 een "Ja"-bias (93% van de antwoorden is "Yes"). Deze priors domineren het voorspelgedrag — voorspellingen worden vaker gedreven door bias dan door bewijs.
Waarom dit een compliance-probleem is
Dit paper is empirische munitie voor drie governance-domeinen tegelijk:
EU AI Act Art. 14 (Human Oversight). De overconfidence bias van frontier-modellen toont aan dat human oversight geen procedurele formaliteit is, maar een compensatie voor een aantoonbaar calibratie-tekort. Een model dat structureel te zeker is, kan niet zonder menselijke validatie.
EU AI Act Art. 15 (Accuracy & Robustness). De forecasting gap is niet op te lossen met meer training data — het is architecturaal. Dat betekent dat elk high-risk AI-systeem dat predictieve claims maakt (fraudedetectie, risico-assessment, planning) onder Art. 15 moet kunnen aantonen dat het niet aan dit calibratietekort lijdt.
BIO2 & NIS2. Als een AI-systeem predicties doet die investerings- of inkoopbeslissingen beïnvloeden, hoort dat onder BBN-classificatie. Een ongekalibreerde voorspeller in een BBN-middel-omgeving is een bevingsbaar risico — en CUSP levert de methodologie om dat te toetsen.
Een operating model voor betrouwbare AI-forecasting
CUSP impliceert geen verbod op AI-forecasting. Het impliceert een architectuur met verplichte lagen:
Fase 1 — Recognition: Kan het systeem relevante richtingen, methoden en analogieën identificeren? Dit is waar huidige modellen wél goed in zijn.
Fase 2 — Mechanistic Plausibility: Kan het onderbouwen welke causale mechanismen een richting kansrijk maken? MCQ-niveau is haalbaar.
Fase 3 — Forecast Discipline: Worden voorspellingen probabilistisch geformuleerd met expliciete tijdshorizon, confidence interval en falsifieerbare indicatoren?
Fase 4 — Calibration: Worden Brier score, Expected Calibration Error, abstention rate en overconfidence systematisch gemeten en gerapporteerd?
Fase 5 — Governance: Worden voorspellingen uitsluitend gebruikt als beslissingsondersteuning — niet als geautomatiseerde besluitvorming?
Voor de Nederlandse overheid vertaalt zich dit in een eenvoudig principe: AI mag verkennen, maar niet beslissen over de toekomst. Forecasting zonder calibratie-laag is geen tool — het is een gok met een API.
De les voor agentic AI
Voor wie research agents bouwt — autonome systemen die literatuur scannen, hypotheses genereren en "voorspellingen" doen — is de les hard. Een research agent zonder kalibratie-, falsificatie- en auditlaag is geen wetenschapper. Het is een confabulatie-engine met een zelfverzekerd toontje.
CUSP kan dienen als evaluatielaag voor zulke agents: test niet of de output plausibel klinkt, maar of voorspellingen uitkomen. En meet hoe zeker het model dáárvan was.
DjimIT ondersteunt organisaties bij het inrichten van betrouwbare AI-governance, inclusief forecasting-calibratie, EU AI Act compliance scans en BIO2-classificatie van predictieve AI-systemen. De vraag is niet of AI mag voorspellen — de vraag is of je weet hoe vaak het ernaast zit.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten — direct in uw inbox.
Doorlopend Advies
Wilt u structurele begeleiding op AI, security & compliance?
Met een Advisory Subscription heeft u een externe sparringpartner die meedenkt op strategisch en technisch niveau — zonder de overhead van een fulltime dienstverband. Vanaf €1.500 per maand, maandelijks opzegbaar.
Ontdek Advisory Subscription →