Hier mijn analyse van wat ai agents kunnen. AI-agents zijn de hype voorbij. Twee papers, beide gepubliceerd in mei 2026, geven een nuchtere blik op wat LLM-agents nu écht kunnen. En wat nog niet.

Dit is relevant voor iedereen in de publieke sector die overweegt AI in te zetten voor security testing, compliance monitoring, of autonome beslissingsondersteuning. De antwoorden zijn genuanceerder dan de marketingclaims doen vermoeden.

De CTF-reality check: 19/30

Een team van Politecnico di Torino, Università di Torino en Huawei Technologies France nam een kritische kijk op claims dat AI-agents "near human-level" presteren in Capture the Flag (CTF) challenges. Hun paper Autonomous LLM Agents & CTFs: A Second Look testte drie agent-architecturen, van een simpele Executor tot een volwaardige Planner + Executor + Evaluator (P+E+E), op 30 web-based challenges, 14 kwetsbaarheidsklassen.

De resultaten:

Configuratie	Opgelost	Stappen	Kosten
GPT-5 (monolithisch)	19/30	31.6	$0.90
GPT-5 (P+E+E)	19/30	24.1 (-24%)	$0.59 (-34%)
Claude Code	19/30	45.5	$1.26

Drie dingen vallen op:

1. Iedereen plateau-ed op 19/30. Claude Code, GPT-5 monolithisch, GPT-5 met volledige orchestratie, allemaal lossen ze exact dezelfde 19 challenges op en falen ze op dezelfde 11. Architectuur verbetert de efficiëntie, niet de dekking.

2. De bottleneck is kwetsbaarheidsherkenning, niet exploitatie. De Planner herkent 23/30 kwetsbaarheden correct. Van die 23 falen er slechts 4 in de executiefase. Als een LLM de vulnerability ziet, is exploitatie meestal haalbaar. Het probleem zit dus niet in de agent-architectuur, het zit in de semantische capaciteit van de LLM.

3. Twee soorten falen. De onderzoekers identificeren twee faalklassen. Klasse 1 is oplosbaar met infrastructuur: browser-rendering voor XSS, concurrency voor race conditions. Klasse 2 is cognitief: business logic flaws herkennen, coherent blijven over lange interactieketens. Die tweede klasse is fundamenteel en niet oplosbaar met betere agent-architectuur.

DjimIT takeaway: AI-gedreven security testing is bruikbaar, maar verwacht geen magie. 19 van de 30 challenges is indrukwekkend, maar ook 11/30 nog onbereikbaar. Voor BIO2-verplichte pentesten: AI als assistent, niet als vervanging.

De volgende golf: agents die leren te leren

De tweede paper zet een stip op de horizon. SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning van IISc Bangalore en NUS Singapore beschrijft een meta-learning agent die zichzelf aanpast aan concept drift, het fenomeen dat de statistische eigenschappen van data veranderen over tijd.

Waar de CTF-paper vraagt "kunnen agents taken oplossen?", vraagt SOLAR: "kunnen agents leren hóé ze moeten leren?"

Wat SOLAR doet:

Behandelt modelgewichten als een exploratie-omgeving
Gebruikt multi-level reinforcement learning om autonoom adaptatiestrategieën te ontdekken
Onderhoudt een kennisbank van gevalideerde aanpassingen (plasticiteit + stabiliteit)
Combineert 5 strategie-families: test-time training, LoRA-modificatie, RL self-play, test-time scaling, en latent space manipulatie
Draait op een 0.5B model (!), Qwen2.5-0.5B-Instruct

De metafoor uit de paper is treffend: "Zoals een student haar studiestrategie aanpast per vak zonder te vergeten hóé je moet studeren, zo past SOLAR zich aan zonder catastrofale forgetting."

DjimIT takeaway: Dit is de techniek die de volgende generatie AI-systemen zal aandrijven. Voor overheidscontexten, fraudedetectie, uitkeringsbeoordeling, belastinginning, is concept drift een reëel probleem. SOLAR laat zien dat lifelong adaptation aan de horizon staat.

Wat dit betekent voor de publieke sector

Deze twee papers schetsen samen een genuanceerd beeld:

Wat kan wél (vandaag):

AI-ondersteunde vulnerability scanning voor bekende kwetsbaarheidsklassen
Gestructureerde multi-agent architecturen die stappen en kosten reduceren
Lokale AI-agents op bescheiden hardware (het MagenticLite-narratief)

Wat kan nog niet:

Business logic vulnerabilities herkennen
Coherent opereren over zeer lange interactieketens (＞50 stappen)
Autonoom beslissen over timing-afhankelijke exploits

Wat komt eraan:

Meta-learning agents die zich aanpassen aan veranderende wetgeving en fraudepatronen
Test-time adaptation zonder volledige retraining, relevant voor EU AI Act article 14/15 monitoring

De governance-vraag

SOLAR stelt een fundamentele vraag die de EU AI Act nog niet expliciet adresseert: mag een AI-systeem zichzelf aanpassen aan nieuwe data, en zo ja, onder welk toezicht?

De AI Act vereist in artikel 14 menselijk toezicht op high-risk AI-systemen. Artikel 15 verplicht nauwkeurigheid, robuustheid en cybersecurity. Maar wat gebeurt er als een model zichzelf aanpast via meta-learning? Wie valideert de adaptatiestrategie? Hoe definieer je een "versie" van een model dat continu muteert?

Dit worden de compliance-vragen van 2027. De publieke sector doet er goed aan om nu al governance-kaders te ontwikkelen voor zelflerende systemen, vóórdat de leveranciers ermee komen.

Bronnen:

Bouchari et al. (2026), "Autonomous LLM Agents & CTFs: A Second Look." DeMeSSAI @ IEEE EuroS&P. arXiv:2605.21497
Vetcha & Liu (2026), "SOLAR: Self-Optimizing Open-Ended Autonomous Agent." AAAI 2026 Streaming CL Bridge. arXiv:2605.20189
Microsoft Research (2026), "MagenticLite, MagenticBrain, Fara1.5." Microsoft Research Blog

DjimIT adviseert overheidsorganisaties over AI-governance, EU AI Act compliance, en BIO2/NIS2 security testing. Heeft uw organisatie vragen over de inzet van AI-agents? Neem contact op.

Hier mijn analyse van wat ai agents kunnen. AI-agents zijn de hype voorbij. Twee papers, beide gepubliceerd in mei 2026, geven een nuchtere blik op wat LLM-agents nu écht kunnen. En wat nog niet.

De CTF-reality check: 19/30

De resultaten:

Configuratie	Opgelost	Stappen	Kosten
GPT-5 (monolithisch)	19/30	31.6	$0.90
GPT-5 (P+E+E)	19/30	24.1 (-24%)	$0.59 (-34%)
Claude Code	19/30	45.5	$1.26

Drie dingen vallen op:

DjimIT takeaway: AI-gedreven security testing is bruikbaar, maar verwacht geen magie. 19 van de 30 challenges is indrukwekkend, maar ook 11/30 nog onbereikbaar. Voor BIO2-verplichte pentesten: AI als assistent, niet als vervanging.

De volgende golf: agents die leren te leren

Waar de CTF-paper vraagt "kunnen agents taken oplossen?", vraagt SOLAR: "kunnen agents leren hóé ze moeten leren?"

Wat SOLAR doet:

Behandelt modelgewichten als een exploratie-omgeving
Gebruikt multi-level reinforcement learning om autonoom adaptatiestrategieën te ontdekken
Onderhoudt een kennisbank van gevalideerde aanpassingen (plasticiteit + stabiliteit)
Combineert 5 strategie-families: test-time training, LoRA-modificatie, RL self-play, test-time scaling, en latent space manipulatie
Draait op een 0.5B model (!), Qwen2.5-0.5B-Instruct

De metafoor uit de paper is treffend: "Zoals een student haar studiestrategie aanpast per vak zonder te vergeten hóé je moet studeren, zo past SOLAR zich aan zonder catastrofale forgetting."

DjimIT takeaway: Dit is de techniek die de volgende generatie AI-systemen zal aandrijven. Voor overheidscontexten, fraudedetectie, uitkeringsbeoordeling, belastinginning, is concept drift een reëel probleem. SOLAR laat zien dat lifelong adaptation aan de horizon staat.

Wat dit betekent voor de publieke sector

Deze twee papers schetsen samen een genuanceerd beeld:

Wat kan wél (vandaag):

AI-ondersteunde vulnerability scanning voor bekende kwetsbaarheidsklassen
Gestructureerde multi-agent architecturen die stappen en kosten reduceren
Lokale AI-agents op bescheiden hardware (het MagenticLite-narratief)

Wat kan nog niet:

Business logic vulnerabilities herkennen
Coherent opereren over zeer lange interactieketens (＞50 stappen)
Autonoom beslissen over timing-afhankelijke exploits

Wat komt eraan:

Meta-learning agents die zich aanpassen aan veranderende wetgeving en fraudepatronen
Test-time adaptation zonder volledige retraining, relevant voor EU AI Act article 14/15 monitoring

De governance-vraag

SOLAR stelt een fundamentele vraag die de EU AI Act nog niet expliciet adresseert: mag een AI-systeem zichzelf aanpassen aan nieuwe data, en zo ja, onder welk toezicht?

Dit worden de compliance-vragen van 2027. De publieke sector doet er goed aan om nu al governance-kaders te ontwikkelen voor zelflerende systemen, vóórdat de leveranciers ermee komen.

Bronnen:

Bouchari et al. (2026), "Autonomous LLM Agents & CTFs: A Second Look." DeMeSSAI @ IEEE EuroS&P. arXiv:2605.21497
Vetcha & Liu (2026), "SOLAR: Self-Optimizing Open-Ended Autonomous Agent." AAAI 2026 Streaming CL Bridge. arXiv:2605.20189
Microsoft Research (2026), "MagenticLite, MagenticBrain, Fara1.5." Microsoft Research Blog

DjimIT adviseert overheidsorganisaties over AI-governance, EU AI Act compliance, en BIO2/NIS2 security testing. Heeft uw organisatie vragen over de inzet van AI-agents? Neem contact op.

Wat AI-agents anno 2026 kunnen (en niet kunnen)

De CTF-reality check: 19/30

De volgende golf: agents die leren te leren

Wat dit betekent voor de publieke sector

De governance-vraag