CUSP: Waarom frontier-AI niet kan voorspellen — en waarom dat gevaarlijk is
AI & ArchitectuurIk heb een zwak voor papers die iets bewijzen wat ik al vermoedde, maar niet kon onderbouwen. CUSP, van Oxford, Stanford, het Allen Institute for AI en Sakana AI, is er zo één. Het papier (arXiv:2605.22681) test zes frontier-modellen op één vraag: kunnen ze voorspellen welke wetenschappelijke doorbraken écht gaan gebeuren?
Het antwoord is nee. En dat is niet het ergste.
Wat CUSP meet
De benchmark draait om 4.760 wetenschappelijke events met 17.429 forecasting-taken, verspreid over zes domeinen. Elk event heeft een precieze datum, dat is cruciaal. CUSP vraagt niet "leg achteraf uit waarom dit werkte" (dat kunnen modellen prima). Het vraagt: voorspel vóóraf of en wanneer iets gaat lukken.
Vier dimensies: feasibility (gaat het lukken?), mechanistic reasoning (hoe dan?), solution design (wat is de oplossing?), en temporal prediction (wanneer?). De eerste drie zijn meerkeuze of open vragen. De vierde, datumvoorspelling, is waar het misgaat.
Wat me raakte
Vier bevindingen:
1. Kennis ≠ foresight. GPT-5.4 scoort 0.819 op "welk mechanisme verklaart dit?" Maar bij "gaat dit lukken?" zakt alles naar kansniveau: 0.45-0.52. Het model herkent wat logisch klinkt, niet wat werkelijk gebeurt.
2. AI is voorspelbaarder dan biologie. De timing van AI-doorbraken is beter te voorspellen dan biologie of scheikunde. Logisch: AI is benchmark-gedreven. Maar de implicatie is scherper: hoe verder van compute-scaling, hoe blinder het model.
3. Meer data helpt niet. De forecasting gap (Δ-fore = 0.436 bij GPT-5.4) is zes keer groter dan de knowledge gap (Δ-know = 0.070). Extra training data verbetert kennis, maar verkleint de voorspelkloof niet.
4. Structureel overconfident. GPT-5.4: +0.74 overconfidence op datumvoorspelling. DeepSeek R1: +0.59. Claude: +0.68. En dan de response biases: LLaMA zegt bij 93% van de vragen "ja". Deze priors domineren het voorspelgedrag.
Waarom dit mij zorgen baart
Dit is geen academische curiositeit. Voor de EU AI Act is het munitie:
- Art. 14 (Human Oversight): een model met structurele overconfidence kan niet zonder menselijke validatie
- Art. 15 (Accuracy & Robustness): de forecasting gap is architecturaal, niet op te lossen met meer data. Elk high-risk systeem dat voorspellingen doet (fraudedetectie, risico-assessment) moet kunnen aantonen dat het níet aan dit calibratietekort lijdt
- BIO2 & NIS2: een ongekalibreerde voorspeller in een BBN-middel-omgeving is een bevingsbaar risico
Wat ik ermee doe
Vijf lagen voor betrouwbare AI-forecasting:
- Recognition, wat modellen wél kunnen: relevante richtingen identificeren
- Mechanistic Plausibility, onderbouwen waarom iets kansrijk is
- Forecast Discipline, probabilistische uitspraken met tijdshorizon, confidence interval en falsifieerbare indicatoren
- Calibration, Brier score, ECE, abstention rate, overconfidence systematisch meten
- Governance, voorspellingen alleen als beslissingsondersteuning, nooit als geautomatiseerde besluitvorming
Voor de Nederlandse overheid vertaalt zich dit in een simpel principe: AI mag verkennen, maar niet beslissen over de toekomst. Forecasting zonder calibratie-laag is geen tool, het is een gok met een API.
DjimIT ondersteunt organisaties bij het inrichten van betrouwbare AI-governance, inclusief forecasting-calibratie, EU AI Act compliance scans en BIO2-classificatie van predictieve AI-systemen.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten, direct in uw inbox.
Security & AI Operating Model
Advisory met executiekracht
Van BIO2 en NIS2 tot EU AI Act, embedded in uw operating model, niet als extern project. Maandelijks opzegbaar, met assessments als bewijsvoering.