ScientistOne en Chain-of-Evidence: waarom AI-output pas waarde heeft als die bewijsbaar is
AIGoogle Cloud AI Research heeft met ScientistOne een autonome research-agent gepubliceerd die op het eerste gezicht lijkt op eerdere "AI scientist"-systemen. Maar de echte innovatie is geen betere LLM, geen slimmere search, en geen grotere context window. Het is Chain-of-Evidence (CoE), een provenance-framework dat elke claim in een research paper koppelt aan een verifieerbare bewijsbron.
De kernclaim van ScientistOne is niet "AI kan onderzoek doen." Die claim hebben we eerder gehoord. De kernclaim is: "AI-onderzoek moet aantoonbaar herleidbaar zijn naar code, data, evaluator-output of literatuur." Dat maakt ScientistOne fundamenteel interessanter dan zijn voorgangers, niet omdat de AI slimmer is, maar omdat het probleem is verschoven van creativiteit naar verifieerbaarheid.
Wat ScientistOne doet
De projectsite presenteert drie hoofdcomponenten:
- Problem Investigator, leest tot 100 full-text PDFs per topic als context voor onderzoek
- Discovery Engine, een parallelle explore-exploit search tree die zoekt naar algoritmische oplossingen, niet alleen tekstuele ideeën
- Paper Writer met Claim Verifier, controleert elke claim tegen expliciete evidence sources voordat het paper wordt afgerond
De pipeline is niet uniek. Wat wel uniek is, is dat elke stap bewijsrelaties bijhoudt, niet als optionele feature, maar als architectonisch fundament.
Chain-of-Evidence: ACID voor research claims
De centrale innovatie is Chain-of-Evidence. De paper positioneert dit als "ACID voor databases, maar dan voor wetenschappelijke claims." Waar ACID (Atomicity, Consistency, Isolation, Durability) de betrouwbaarheid van databasetransacties definieert, definieert CoE de betrouwbaarheid van onderzoeksclaims.
Elke claim in een ScientistOne-paper moet gekoppeld zijn aan minstens één bewijsbron:
| Bewijstype | Voorbeeld |
|---|---|
| Literatuurverwijzing | Een peer-reviewed paper dat de claim ondersteunt |
| Experimentlog | Een reproduceerbare testrun met meetbare output |
| Evaluator-output | Een canonical evaluator die de score onafhankelijk kan reproduceren |
| Code-artefact | De solver-code die bij het paper hoort |
| Methodologische specificatie | Een formele beschrijving van het algoritme |
Dit is fundamenteel anders dan de gangbare aanpak, waarbij verificatie achteraf plaatsvindt, een hallucination check aan het einde van de pipeline. ScientistOne probeert bewijsvoering tijdens literature review, discovery én paper writing mee te nemen.
De integriteitsresultaten zijn opvallend
De CoE Audit, ScientistOne's eigen verificatieraamwerk, laat zien dat alle concurrenten systematische integriteitsfouten vertonen:
| Systeem | Score Verificatie ↑ | Hallucinated References ↓ | Methode-Code Alignment ↑ |
|---|---|---|---|
| Sakana ASv2 | 5/12 (42%) | 0/159 (0%) | 5/15 (33%) |
| AutoResearchClaw | 5/12 (42%) | 3/196 (1.5%) | 3/15 (20%) |
| DeepScientist | 11/12 (92%) | 42/201 (20.9%) | 5/15 (33%) |
| AI-Researcher | 9/12 (75%) | 21/222 (9.5%) | 12/15 (80%) |
| ScientistOne | 12/12 (100%) | 0/337 (0%) | 14/15 (93%) |
De cijfers vertellen een helder verhaal:
- Hallucinated references zijn endemisch, DeepScientist hallucineert 20.9% van zijn referenties, AI-Researcher 9.5%, Sakana ASv2 letterlijk geen enkele verifieerbare referentie. ScientistOne: 0 op 337.
- Score verificatie faalt bij de meeste systemen, een geclaimde benchmark score is vaak niet reproduceerbaar. ScientistOne: 12 op 12.
- Method-code alignment, komt de methodologische beschrijving overeen met de ingediende code? Zelfs de beste concurrent (AI-Researcher) haalt 80%. ScientistOne: 93%.
De Claim Provenance Rate, het percentage kwantitatieve claims dat herleidbaar is naar experimentlogs, is 98% bij ScientistOne.
Dit zijn geen marginale verbeteringen. Dit is een orde-grootte verschil in onderzoeksintegriteit.
Drie architectuurpatronen die volwassen beginnen te worden
ScientistOne is niet relevant omdat het "betere AI" is. Het is relevant omdat het drie patronen combineert die in agentic systems volwassen beginnen te worden:
1. Evidence-native orchestration. De agent voert niet alleen stappen uit, maar bewaart per stap bewijsrelaties. Dit is vergelijkbaar met data lineage in moderne dataplatforms, maar toegepast op redeneringen, claims, experimenten en papers. Het resultaat is een volledige audit trail van claim naar bron.
2. Auditability by construction. Veel agent-frameworks voegen verificatie achteraf toe, een hallucination check net voor publicatie. ScientistOne neemt bewijsvoering mee in elke fase: literature review, discovery, paper writing. Dit is fundamenteel beter, omdat verificatie achteraf altijd incomplete dekking heeft.
3. Evaluator-grounded search. De Discovery Engine optimaliseert niet alleen tekstuele ideeën, maar zoekt naar werkende solver-code die door canonical evaluators opnieuw kan worden getest. Een "idee" is pas een resultaat als het gekoppeld is aan een uitvoerbaar artefact.
De beperkingen zijn reëel
De claim "towards human-level autonomous research" moet scherp worden gelezen. De resultaten zijn indrukwekkend, maar binnen begrensde benchmarkomgevingen: ADRS, MLE-Bench en Parameter Golf. De generalisatie naar medical imaging, fine-grained recognition, 3D perception en constrained language model training is relevant, maar blijft experimenteel.
De moeilijkste onderdelen van wetenschap zitten vaak buiten score-optimalisatie: probleemframing, epistemische voorzichtigheid, causale interpretatie, ethische afweging, negatieve resultaten, onderzoeksagenda's en maatschappelijke relevantie. CoE adresseert verificatie van claims, niet de wetenschappelijke kwaliteit van het experiment zelf. Een claim kan correct herleidbaar zijn naar een experimentlog, maar het experiment kan nog steeds beperkt, gebiased, overfit of methodologisch onvoldoende zijn.
Benchmark gaming blijft een risico. Omdat ScientistOne werkt met canonical evaluators en search trees, is evaluator overfitting of specification gaming mogelijk. De CoE Audit bevat een "Specification Violation" check, maar LLM-gebaseerde majority-vote beoordeling van code tegenover task spec blijft een probabilistische auditlaag, geen formele verificatie.
CoE verifieert herleidbaarheid, niet waarheid. Een claim kan perfect gedocumenteerd zijn en toch onjuist. CoE reduceert hallucination risk, maar vervangt geen peer review, domeinexpertise of causal validity assessment.
Vergelijking met andere research agents
De concurrentiepositionering is instructief:
- AutoResearchClaw is een human-AI collaborative pipeline met multi-agent debate, self-healing executor en cross-run evolution. Het is sterker als leer- en verbetercyclus over meerdere runs, maar scoort slecht op integriteit (20% method-code alignment).
- AI-Researcher claimt een complete autonome pipeline van hypothesis tot manuscript, en scoort 80% op method-code alignment, het beste na ScientistOne.
- ScientistOne onderscheidt zich door integriteit als primaire architectuurdimensie te nemen. Niet "meer agents", niet "meer autonomie", maar "elk statement moet bewijsbaar zijn."
Dat is precies de juiste correctie op de huidige golf van research agents.
Wat dit betekent voor enterprise AI-governance
ScientistOne is niet primair relevant als "tool om wetenschap te automatiseren." Het is relevant als blauwdruk voor auditable AI in gereguleerde omgevingen.
Voor ISO 27001, NIST AI RMF, BIO, AVG en de AI Act levert de CoE-aanpak drie controleerbare assets:
| Asset | Vraag die het beantwoordt |
|---|---|
| Provenance | Waar komt een claim vandaan? Welke bron, code, of data? |
| Reproducibility | Kan het resultaat opnieuw worden vastgesteld? |
| Accountability | Welke agent, modelversie, toolchain en evidence-bron leidden tot de output? |
Voor gereguleerde omgevingen, rechtspraak, overheid, financiële dienstverlening, zorg, is dit relevanter dan generieke hallucination mitigation. Het maakt AI-output auditbaar, reviewbaar en verdedigbaar.
De beperking blijft dat een CoE-systeem zonder data governance een prachtig gedocumenteerde compliance liability wordt. Gevoelige data, auteursrechten op full-text PDFs, dataminimalisatie en model access logs moeten goed geregeld zijn, anders documenteer je niet waarom je AI betrouwbaar is, maar waarom je data-beheer ontoereikend is.
Implicaties voor agent-architectuur
Voor organisaties die agentic AI bouwen, biedt ScientistOne vier concrete architectuurpatronen:
1. Een Chain-of-Evidence laag bovenop agent-output. Elke agenttaak moet niet alleen een antwoord produceren, maar ook: bron-ID's, code-artefacten, testresultaten, command logs, timestamps, model-ID, prompt-ID, confidence score, en validatiestatus.
2. Claim-objecten als gestructureerde output. In plaats van vrije tekst als eindresultaat: laat agents claims structureren als gestructureerde objecten met claim_type, claim_text, evidence_type, evidence_uri, verifier, status, confidence, en limitations.
3. CoE Audit als standaard pipeline. Voor research, code-analyse, vulnerability scans, architectuuradviezen en documentgeneratie: voer vier checks uit:
- Score/result verification, klopt het resultaat bij hernieuwde uitvoering?
- Specification violation, voldoet de output aan de opdracht en constraints?
- Reference verification, bestaan de bronnen en dragen ze de claim?
- Method-artifact alignment, komt de beschrijving overeen met code, logs of configuratie?
4. Evidence-native orchestration. Dit gaat verder dan alleen agent-logging. Het betekent dat de orchestrator zelf bewijsrelaties bijhoudt: welke stap produceerde welke claim, op basis van welke input, met welke confidence, en tegen welke verificatie. Dit is een architectuurlaag, geen logging-feature.
Conclusie
ScientistOne is geen gewone autonomous scientist demo. De echte bijdrage is Chain-of-Evidence als control plane voor autonome kennisproductie. Dat is een volwassen architectuurpatroon: AI-output wordt pas waardevol als die herleidbaar, reproduceerbaar en auditbaar is.
De beste toepassing ligt niet in "laat AI zelfstandig wetenschap doen", maar in "bouw research-, coding- en advisory-agents die geen ongefundeerde claims meer mogen produceren."
Voor de Nederlandse publieke sector is de relevantie helder: de AI Act eist transparantie, de AVG eist verantwoording, BIO2 eist auditeerbaarheid. Een CoE-first architectuur, waarin elke AI-output gekoppeld is aan bewijs, artefacten en bronnen, is geen nice-to-have. Het is de technische voorwaarde voor compliance.
Gebaseerd op: ScientistOne project page (2026). scientist-one.github.io. "ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence." Google Cloud AI Research. Resultaten gerapporteerd op ADRS, MLE-Bench en Parameter Golf benchmarks.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten, direct in uw inbox.
Security & AI Operating Model
Advisory met executiekracht
Van BIO2 en NIS2 tot EU AI Act, embedded in uw operating model, niet als extern project. Maandelijks opzegbaar, met assessments als bewijsvoering.