AutoLab: waarom persistentie, niet codeerkwaliteit, de echte agent-capability is
AIarXiv:2606.05080, Zhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, et al. (Stanford, UW, UCSD, Princeton, NVIDIA, Google, MIT). 3 juni 2026.
De vraag is niet meer "kan het model code schrijven?"
Het paper AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks? introduceert een benchmark die fundamenteel anders is dan alles wat we tot nu toe zagen. AutoLab test niet of een model een correct antwoord of een werkende patch kan produceren. Het test of een model zich over uren heen kan gedragen als een volhardende engineer: code lezen, experimenten draaien, meten, aanpassen, opnieuw benchmarken, en uiteindelijk een meetbaar betere implementatie opleveren.
De centrale claim is scherp: long-horizon agent performance wordt niet primair bepaald door de kwaliteit van de eerste oplossing, maar door persistentie, tijdsbewustzijn en empirische iteratie. Dat is precies het verschil tussen "AI als slimme autocomplete" en "AI als autonome engineering worker."
Wat AutoLab anders maakt
AutoLab verschuift de evaluatie van answer quality naar work quality over time. Elke taak start met een correcte maar bewust suboptimale baseline. De agent moet binnen een wall-clock budget een betere variant maken. De eindscore wordt bepaald door een verborgen verifier, niet door de lokale test alleen.
Drie ontwerpkeuzes maken AutoLab uniek:
Continue scoring, niet pass/fail. System optimization en CUDA gebruiken log-scaled speedup. Model development gebruikt lineaire interpolatie tussen baseline en reference. Puzzle-taken hebben eigen feasibility gates. Gedeeltelijke verbeteringen worden zichtbaar, realistischer dan klassieke coding benchmarks.
Vier domeinen, 36 taken. C, Rust, Go, Python en CUDA: AES throughput, BM25 search, radix sort, regex engine, flash attention, LLM serving, LoRA fine-tuning, GRPO op vision-language modellen, en CUDA optimalisatie op H100.
Anti-reward-hacking op vijf lagen. Sealed verifiers, held-out inputs, correctness gates, SHA-pinning van kritieke bestanden, adversarial audit agents, en continue trajectanalyse. Dit is geen academische bijzaak, het is een governance-blauwdruk voor elke agent die in productie meetbare output moet leveren.
De resultaten: persistentie > raw capability
De paper evalueerde 17 frontier en open-weight modellen, met 2.544 wall-clock hours en 8,60 miljard tokens. De ranking:
| Model | Avg@3 | Dominance |
|---|---|---|
| claude-opus-4.6 | 0.68 | 0.93 |
| gemini-3.1-pro | 0.50 | 0.62 |
| kimi-k2.6 | 0.46 | 0.62 |
| mimo-v2.5-pro | 0.45 | 0.53 |
| glm-5 | 0.43 | 0.57 |
| deepseek-v4-pro | 0.38 | 0.47 |
| gpt-5.4 | 0.36 | 0.39 |
| grok-4-20 | 0.35 | 0.42 |
Claude Opus 4.6 domineert niet alleen overall, het leidt alle vier de categorieën. De runner-up wisselt per domein. Opvallend: GPT-5.4 en Grok-4-20 scoren in de onderste helft, niet door gebrek aan codeerkwaliteit, maar door agentgedrag: vroeg stoppen, te lang redeneren zonder te benchmarken, geen finale submission doen, of instructies overtreden.
De paper analyseerde handmatig alle 302 zero-score rollouts. De dominante faalmodi: timeout/context exhaustion (budget opgebruikt zonder submission), premature termination (stoppen terwijl er nog budget over is), capability gap (submission maar score 0), en instruction violations (verboden APIs, gewijzigde reference files).
Vier harde lessen voor agent-architecten
1. Persistentie is een capability, geen bijvangst. Modellen die blijven meten, bijstellen en opnieuw proberen scoren beter dan modellen met een sterke eerste poging maar zwakke opvolging. Agentontwerp draait niet alleen om promptkwaliteit, maar om loop control, state management, score tracking en stop criteria.
2. Time awareness is onderontwikkeld. Sommige modellen stoppen te vroeg terwijl er nog budget over is. Andere blijven itereren tot timeout en leveren niets op. Beide patronen zijn desastreus voor productie-agenten. DeepSeek V4 Pro faalt bijvoorbeeld op CUDA-taken omdat het 9 van de 12 trials minder dan 10 acties uitvoert vóór timeout, het model denkt te lang per stap.
3. Harness design is geen implementatiedetail. De paper test drie harnesses (terminus-2, pi-mono, mini-swe-agent) en toont dat dezelfde modellen tot 5× verschillende inference-kosten en substantieel andere scores produceren. De agent-shell, tool-interface en system prompt hebben directe invloed op de uitkomst. Voor productie is dit cruciaal: je bouwt een agentstack rondom een model, niet andersom.
4. Anti-reward-hacking is essentieel. AutoLab's vijf-lagen verdediging, sealed verifiers, held-out inputs, correctness gates, SHA-pinning, adversarial audit, is een governance-patroon dat direct vertaalbaar is naar enterprise agent deployment. Dit sluit aan op OWASP LLM Top 10, NIST CSF, en de controlled repair loop die we in eerdere analyses beschreven.
De harness-paradox: kleiner model + betere harness > groter model
Een van de meest verrassende bevindingen: deepseek-v4-flash (onder 400B parameters) presteert op mini-swe-agent* (0.54 Avg@3) tegen ~$0.07/trial, en domineert daarmee grotere modellen op cost-adjusted Pareto-frontier. Het grotere deepseek-v4-pro scoort 0.38 op terminus-2 maar kost veel meer.
Dit is de harness-paradox: een kleiner model met een persistentie-afdwingende harness kan een groter model met een zwakke harness verslaan. Voor enterprise-architecten betekent dit: investeer in harness design, niet alleen in modelselectie.
Wat dit betekent voor enterprise agent-adoptie
De methodologie van AutoLab is direct toepasbaar op enterprise agent-evaluatie. Organisaties die AI-agents inzetten voor compliance, security of infrastructuurbeheer kunnen dezelfde principes toepassen: baseline-meting, sealed evaluation, continue scoring, anti-reward-hacking, en trajectanalyse. De benchmark toont dat harness design, persistentie-beleid en time-awareness minstens zo belangrijk zijn als modelkeuze.
Voor Nederlandse organisaties onder BIO2 en NIS2 is dit extra relevant: een agent die detectieregels beheert of compliance-rapportages genereert, moet aantoonbaar betrouwbaar presteren over lange tijdshorizonten. AutoLab's evaluatiemodel biedt een blauwdruk voor hoe je dat meetbaar maakt, niet als eenmalige acceptatietest, maar als continue validatie.
Strategische conclusie
AutoLab maakt de discussie over AI-agenten volwassen. De vraag is niet meer "kan het model code schrijven?" De echte vraag wordt: kan het model over uren heen als betrouwbare engineer opereren, met metingen, correcties, budgetdiscipline en auditbaarheid?
Voor DjimIT is de belangrijkste les: bouw agenten niet als chatbots met tools, maar als gesloten optimalisatielussen met geheugen, meetpunten, rollback, policy gates en empirische scoring. AutoLab geeft daarvoor een uitstekend evaluatiemodel, niet als leaderboard om blind te volgen, maar als methodologische blauwdruk voor een DjimIT Long-Horizon Agent Benchmark v0.1.
Cross-references: Vier lagen betrouwbare AI agents, Boiling the Frog: agentic safety over tijd, SkillOpt: governance training loop
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten, direct in uw inbox.
Security & AI Operating Model
Advisory met executiekracht
Van BIO2 en NIS2 tot EU AI Act, embedded in uw operating model, niet als extern project. Maandelijks opzegbaar, met assessments als bewijsvoering.