Ik heb een zwak voor papers die iets bewijzen wat ik al vermoedde, maar niet kon onderbouwen. CUSP, van Oxford, Stanford, het Allen Institute for AI en Sakana AI, is er zo één. Het papier (arXiv:2605.22681) test zes frontier-modellen op één vraag: kunnen ze voorspellen welke wetenschappelijke doorbraken écht gaan gebeuren?

Het antwoord is nee. En dat is niet het ergste.

Wat CUSP meet

De benchmark draait om 4.760 wetenschappelijke events met 17.429 forecasting-taken, verspreid over zes domeinen. Elk event heeft een precieze datum, dat is cruciaal. CUSP vraagt niet "leg achteraf uit waarom dit werkte" (dat kunnen modellen prima). Het vraagt: voorspel vóóraf of en wanneer iets gaat lukken.

Vier dimensies: feasibility (gaat het lukken?), mechanistic reasoning (hoe dan?), solution design (wat is de oplossing?), en temporal prediction (wanneer?). De eerste drie zijn meerkeuze of open vragen. De vierde, datumvoorspelling, is waar het misgaat.

Wat me raakte

Vier bevindingen:

1. Kennis ≠ foresight. GPT-5.4 scoort 0.819 op "welk mechanisme verklaart dit?" Maar bij "gaat dit lukken?" zakt alles naar kansniveau: 0.45-0.52. Het model herkent wat logisch klinkt, niet wat werkelijk gebeurt.

2. AI is voorspelbaarder dan biologie. De timing van AI-doorbraken is beter te voorspellen dan biologie of scheikunde. Logisch: AI is benchmark-gedreven. Maar de implicatie is scherper: hoe verder van compute-scaling, hoe blinder het model.

3. Meer data helpt niet. De forecasting gap (Δ-fore = 0.436 bij GPT-5.4) is zes keer groter dan de knowledge gap (Δ-know = 0.070). Extra training data verbetert kennis, maar verkleint de voorspelkloof niet.

4. Structureel overconfident. GPT-5.4: +0.74 overconfidence op datumvoorspelling. DeepSeek R1: +0.59. Claude: +0.68. En dan de response biases: LLaMA zegt bij 93% van de vragen "ja". Deze priors domineren het voorspelgedrag.

Waarom dit mij zorgen baart

Dit is geen academische curiositeit. Voor de EU AI Act is het munitie:

Art. 14 (Human Oversight): een model met structurele overconfidence kan niet zonder menselijke validatie
Art. 15 (Accuracy & Robustness): de forecasting gap is architecturaal, niet op te lossen met meer data. Elk high-risk systeem dat voorspellingen doet (fraudedetectie, risico-assessment) moet kunnen aantonen dat het níet aan dit calibratietekort lijdt
BIO2 & NIS2: een ongekalibreerde voorspeller in een BBN-middel-omgeving is een bevingsbaar risico

Wat ik ermee doe

Vijf lagen voor betrouwbare AI-forecasting:

Recognition, wat modellen wél kunnen: relevante richtingen identificeren
Mechanistic Plausibility, onderbouwen waarom iets kansrijk is
Forecast Discipline, probabilistische uitspraken met tijdshorizon, confidence interval en falsifieerbare indicatoren
Calibration, Brier score, ECE, abstention rate, overconfidence systematisch meten
Governance, voorspellingen alleen als beslissingsondersteuning, nooit als geautomatiseerde besluitvorming

Voor de Nederlandse overheid vertaalt zich dit in een simpel principe: AI mag verkennen, maar niet beslissen over de toekomst. Forecasting zonder calibratie-laag is geen tool, het is een gok met een API.

DjimIT ondersteunt organisaties bij het inrichten van betrouwbare AI-governance, inclusief forecasting-calibratie, EU AI Act compliance scans en BIO2-classificatie van predictieve AI-systemen.

Het antwoord is nee. En dat is niet het ergste.

Wat CUSP meet

Wat me raakte

Vier bevindingen:

Waarom dit mij zorgen baart

Dit is geen academische curiositeit. Voor de EU AI Act is het munitie:

Art. 14 (Human Oversight): een model met structurele overconfidence kan niet zonder menselijke validatie
Art. 15 (Accuracy & Robustness): de forecasting gap is architecturaal, niet op te lossen met meer data. Elk high-risk systeem dat voorspellingen doet (fraudedetectie, risico-assessment) moet kunnen aantonen dat het níet aan dit calibratietekort lijdt
BIO2 & NIS2: een ongekalibreerde voorspeller in een BBN-middel-omgeving is een bevingsbaar risico

Wat ik ermee doe

Vijf lagen voor betrouwbare AI-forecasting:

Recognition, wat modellen wél kunnen: relevante richtingen identificeren
Mechanistic Plausibility, onderbouwen waarom iets kansrijk is
Forecast Discipline, probabilistische uitspraken met tijdshorizon, confidence interval en falsifieerbare indicatoren
Calibration, Brier score, ECE, abstention rate, overconfidence systematisch meten
Governance, voorspellingen alleen als beslissingsondersteuning, nooit als geautomatiseerde besluitvorming

DjimIT ondersteunt organisaties bij het inrichten van betrouwbare AI-governance, inclusief forecasting-calibratie, EU AI Act compliance scans en BIO2-classificatie van predictieve AI-systemen.

CUSP: Waarom frontier-AI niet kan voorspellen - en waarom dat gevaarlijk is

Wat CUSP meet

Wat me raakte

Waarom dit mij zorgen baart

Wat ik ermee doe