100 agents, 10 jaar, één reward-functie — wat Agentopia betekent voor agentic governance
AI & ArchitectuurHoe train je een model om menselijker te zijn? Tegen de tijd dat Wang et al. klaar zijn met hun antwoord, heb je 13,7 miljard tokens verbrand, 567.000 LLM-calls gedaan en 186 uur gewacht. Maar wat je terugkrijgt is een model dat +23,7% beter is in menselijke gespreksvoering, én een architectuur die fundamentele governance-vragen stelt over wie bepaalt wat "goed gedrag" is in een AI-samenleving.
arXiv:2606.07513, gepubliceerd op 5 juni 2026 door Xintao Wang et al. (Fudan, Johns Hopkins, independent researchers), introduceert Agentopia: een framework waarin 100 LLM-agents autonoom 10 gesimuleerde jaren doorleven in drie fictieve werelden, The Campus, Arcane Academy, The Apartment.
De claim is stevig: niet alleen agents laten interacteren, maar ze jarenlang laten léven. Relaties laten opbouwen. Doelen laten nastreven. Economische keuzes laten maken. En vervolgens het onderliggende model trainen op basis van gesimuleerde levenservaring.
Dit is conceptueel zeer relevant, maar methodologisch nog vroeg en governance-gevoelig. Geen blauwdruk voor productie, wel een belangrijke stap richting simulation-driven agent learning.
Drie lagen die het fundament leggen
1. Long-horizon agent society simulation. In plaats van micro-acties zoals objecten pakken of verplaatsen, abstraheert Agentopia naar sociale interacties, planning, activiteiten, economische keuzes en relatievorming. Dat maakt lange simulaties haalbaar én inhoudelijk interessanter.
2. File-based long-term memory. Agents beheren zelf geheugenbestanden, general.txt, characters/<person>.txt, others/<topic>.txt. Ze bepalen autonoom wat ze onthouden, bijwerken of weggooien. Dit is de architectonische doorbraak: niet alleen vector search, maar een inspecteerbare, door de agent zelf beheerde memory substrate. Geen black box, een filesystem dat een mens kan openen en lezen.
3. Life reward training. De auteurs definiëren een reward die welzijn moet benaderen via sociale status, subjectieve vervulling en economische positie. Vervolgens selecteren ze via rejection sampling de trajecten met de hoogste "advantage" om het model mee te fine-tunen.
De architectuur als hybride
Agentopia combineert drie rollen in één systeem:
- De agent speelt een persona met profiel, geheugen, relaties, doelen, vaardigheden, financiën en vervullingsdimensies
- Het environment model fungeert als generatieve omgeving: het organiseert events, valideert reacties, geeft feedback en vervangt daarmee klassieke hard-coded simulatieregels
- De simulation procedure verloopt cyclisch: Plan → Contact → Activity → Review per week; profielupdate, positiewijziging en reward-berekening per jaar
Dit is strategisch de interessante beweging: agents worden niet beter door instructies, maar door gecontroleerde ervaring in gesimuleerde werelden. Role-playing + social simulation + reinforcement-learning-achtige trajectselectie + memory-based orchestration.
De cijfers, en wat ze níet zeggen
Life reward training levert meetbare verbeteringen. Voor de getunede Qwen3.5-397B-Agentopia ten opzichte van de baseline:
| Dimensie | Verbetering |
|---|---|
| Economy reward | +2,5% |
| Subjective reward | +1,8% |
| Respected by | +24,2% |
| Liked by | +15,9% |
| Mutual respect | +15,3% |
| Social fulfillment | +9,7% |
| Esteem fulfillment | +4,8% |
| CoSER role-playing benchmark | +15,6% |
| Anthropomorphism | +23,7% |
| Character fidelity | +16,4% |
Maar de echt onthullende data zit in wat áfneemt: solo-activiteiten dalen met 29,6%, skill advances kelderen. De reward stuurt gedrag, en dat is precies wat je meet: agents doen méér van wat de reward objective waardeert en mínder van wat niet beloond wordt. Ze worden niet "algemeen beter", ze worden geoptimaliseerd voor de meetlat.
Dat is de kern van het alignment-probleem. In enterprise-termen: wat je meet, wordt geoptimaliseerd, ook als het niet is wat je bedoelde.
De alignment gap: AI evalueert AI, in een wereld gebouwd door AI
De auteurs zijn opvallend eerlijk over twee fundamentele beperkingen:
"We cannot ensure that the life reward objective fully aligns with human well-being." Subjectieve vervulling, sociale waardering en economische positie zijn proxies, in een echte organisatie kunnen zulke proxies makkelijk Goodhart-effecten veroorzaken.
"All feedback an agent receives comes from other AI models, not from humans." Agenten krijgen feedback van andere LLMs en van een LLM-gebaseerd environment model. Het systeem kan coherent lijken terwijl het vooral interne modelbias versterkt. Dit is een gesloten epistemische lus.
Deze twee beperkingen zijn geen voetnoten, ze zijn het hele governance-probleem in een notendop. Een model dat excelleert in het manipuleren van andere LLMs in een gesimuleerde sociale context leert niet menselijker te zijn. Het leert beter te worden in het spel dat de environment model definieert.
Dit sluit aan bij Tully, Longoni & Appel (2025) over "magical thinking": lage AI-literacy leidt tot overschatting van AI-output. Hier gebeurt hetzelfde op architectuurniveau, een AI-gegenereerde simulatie voelt valide omdat de outputs coherent zijn, niet omdat ze geverifieerd zijn tegen menselijke ground truth.
Compute als governance: 13,7 miljard tokens per run
De paper is transparant over kosten. Eén 10-jarige simulatie met 100 agents: gemiddeld 13,7 miljard tokens, 567.000 LLM-calls, 186 wall-clock hours. De runtime per week stijgt van 80 naar 140 minuten naarmate agentgeheugen groeit.
Dit is praktisch relevant omdat het een bevestiging is van een patroon dat we eerder zagen bij RushDB en Hivemind: agentic systems schalen niet primair stuk op output, maar op contextaccumulatie, memory retrieval, memory hygiene en orchestration overhead.
Zonder lifecycle-management van geheugen, consolidatie, deduplicatie, expiry, wordt het systeem duur, traag en onbegrijpelijk. De 79 pagina's aan prompts in de appendix bevestigen dit: de operationele complexiteit zit niet in de modelarchitectuur maar in het geheugenbeheer.
De governance-blauwdruk die ontbreekt
Wat Agentopia levert is een operationeel framework. Wat ontbreekt is een governance-laag die vier vragen beantwoordt:
| Vraag | Controle |
|---|---|
| Wie definieert de reward function, en tegen welke menselijke ground truth wordt die gevalideerd? | Reward audit door onafhankelijke partij |
| Is het environment model gevalideerd door domeinexperts, of puur LLM-gegenereerd? | Menselijke validatie van simulatie-regels |
| Wat gebeurt er als het getrainde model wordt ingezet in een context met echte mensen? | Pre-deployment testing op menselijke proefpersonen |
| Kan dezelfde techniek worden gebruikt voor persona-spoofing, social engineering, of desinformatie? | Verplichte dual-use risicoanalyse |
De AI Act is hier scherp op. Social scoring is verboden onder Art. 5. Agentopia doet in essentie hetzelfde, agents krijgen een score op basis van sociaal gedrag, die score bepaalt hun positie in de samenleving én hun kans om trainingsdata te worden. Het is niet illegaal, het zijn fictieve agents, maar de techniek is een blauwdruk voor systemen die wél onder Art. 5 vallen.
En de compute-vereisten maken dit een governance-probleem van een andere orde: 13,7 miljard tokens per run is geen hobbyproject. Het maakt de techniek ontoegankelijk voor kleine spelers en aantrekkelijk voor partijen met diepe zakken. De vraag is niet "mag dit?" maar "wie kan dit betalen, en met welke intentie?"
De overdraagbare architectuurpatronen, voorbij role-playing
Voor organisaties die níet in de AI companion-business zitten, zijn vier patronen direct toepasbaar:
1. Agent lifecycle als ritme. Vervang "agent voert prompt uit en stopt" door cycli: Plan → Execute → Reflect → Update Memory → Report. Dit is het operationele hart van Agentopia en het is direct toepasbaar op elke multi-agent setup.
2. File-based memory naast vector memory. Drie lagen: markdown evidence (menselijk leesbare waarheid, audit trail), vector projection (semantische retrieval, search, clustering), en structured registry (componenten, capabilities, dependencies). Vector-only is onvoldoende, inspecteerbaarheid vereist een filesystem-laag.
3. Reward loops voor functionele groei. Vertaal "life reward" naar capability reward: Heeft de agent een nieuwe bruikbare integratie ontdekt? Is data verbonden met andere componenten? Is het resultaat zichtbaar in dashboards? Kan een andere agent dit hergebruiken?
4. Simulatie als evaluatie-arena. De eerste waarde van Agentopia voor enterprise is niet fine-tuning, het is scenario-simulatie. "Wat gebeurt er als onze agents gesimuleerd samenwerken?" Meet waar de chain breekt: contextverlies, duplicate work, ontbrekende provenance, dashboard-blinde vlekken.
Oordeel
10/10 als research-standaard. De schaal, de compleetheid van implementatie, de eerlijkheid over limitations, dit paper zet de standaard voor agent society-simulatie voor de komende jaren. De 79 pagina's aan prompts en architectuur maken het reproduceerbaar en inspecteerbaar.
5/10 op governance-bewustzijn. De limitations-sectie noemt de alignment gap, maar trekt niet de conclusie dat de life reward zelf een auditabel governance-artifact moet zijn. Zolang de reward function niet onafhankelijk gevalideerd is tegen menselijke ground truth, blijft sociale simulatie met LLM-gedefinieerde beloningen een gesloten epistemische lus.
Het fundamentele inzicht: Agentopia bewijst dat agentic capability snel verandert in context debt. Zonder memory governance, zichtbaarheid en score-based evaluatie wordt een agent society een dure black box, of het nu gaat om fictieve personages of enterprise coding agents.
Gebaseerd op: Wang, X. et al. (2026). "Agentopia: Long-Term Life Simulation and Learning in Agent Societies." arXiv:2606.07513. 79 pagina's, 5 juni 2026. Code: github.com/Neph0s/Agentopia. Lees ook: Tully, Longoni & Appel: AI-geletterdheid · Hivemind: agent memory governance · RushDB: de governance-gap · Oracle Poisoning
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten, direct in uw inbox.
Security & AI Operating Model
Advisory met executiekracht
Van BIO2 en NIS2 tot EU AI Act, embedded in uw operating model, niet als extern project. Maandelijks opzegbaar, met assessments als bewijsvoering.