Wat AI-agents anno 2026 kunnen (en niet kunnen)
AI & ArchitectuurAI-agents zijn de hype voorbij. Twee papers — beide gepubliceerd in mei 2026 — geven een nuchtere blik op wat LLM-agents nu écht kunnen. En wat nog niet.
Dit is relevant voor iedereen in de publieke sector die overweegt AI in te zetten voor security testing, compliance monitoring, of autonome beslissingsondersteuning. De antwoorden zijn genuanceerder dan de marketingclaims doen vermoeden.
De CTF-reality check: 19/30
Een team van Politecnico di Torino, Università di Torino en Huawei Technologies France nam een kritische kijk op claims dat AI-agents "near human-level" presteren in Capture the Flag (CTF) challenges. Hun paper Autonomous LLM Agents & CTFs: A Second Look testte drie agent-architecturen — van een simpele Executor tot een volwaardige Planner + Executor + Evaluator (P+E+E) — op 30 web-based challenges, 14 kwetsbaarheidsklassen.
De resultaten:
| Configuratie | Opgelost | Stappen | Kosten | |---|---|---|---| | GPT-5 (monolithisch) | 19/30 | 31.6 | $0.90 | | GPT-5 (P+E+E) | 19/30 | 24.1 (-24%) | $0.59 (-34%) | | Claude Code | 19/30 | 45.5 | $1.26 |
Drie dingen vallen op:
1. Iedereen plateau-ed op 19/30. Claude Code, GPT-5 monolithisch, GPT-5 met volledige orchestratie — allemaal lossen ze exact dezelfde 19 challenges op en falen ze op dezelfde 11. Architectuur verbetert de efficiëntie, niet de dekking.
2. De bottleneck is kwetsbaarheidsherkenning, niet exploitatie. De Planner herkent 23/30 kwetsbaarheden correct. Van die 23 falen er slechts 4 in de executiefase. Als een LLM de vulnerability ziet, is exploitatie meestal haalbaar. Het probleem zit dus niet in de agent-architectuur — het zit in de semantische capaciteit van de LLM.
3. Twee soorten falen. De onderzoekers identificeren twee faalklassen. Klasse 1 is oplosbaar met infrastructuur: browser-rendering voor XSS, concurrency voor race conditions. Klasse 2 is cognitief: business logic flaws herkennen, coherent blijven over lange interactieketens. Die tweede klasse is fundamenteel en niet oplosbaar met betere agent-architectuur.
DjimIT takeaway: AI-gedreven security testing is bruikbaar, maar verwacht geen magie. 19 van de 30 challenges is indrukwekkend — maar ook 11/30 nog onbereikbaar. Voor BIO2-verplichte pentesten: AI als assistent, niet als vervanging.
De volgende golf: agents die leren te leren
De tweede paper zet een stip op de horizon. SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning van IISc Bangalore en NUS Singapore beschrijft een meta-learning agent die zichzelf aanpast aan concept drift — het fenomeen dat de statistische eigenschappen van data veranderen over tijd.
Waar de CTF-paper vraagt "kunnen agents taken oplossen?", vraagt SOLAR: "kunnen agents leren hóé ze moeten leren?"
Wat SOLAR doet:
- Behandelt modelgewichten als een exploratie-omgeving
- Gebruikt multi-level reinforcement learning om autonoom adaptatiestrategieën te ontdekken
- Onderhoudt een kennisbank van gevalideerde aanpassingen (plasticiteit + stabiliteit)
- Combineert 5 strategie-families: test-time training, LoRA-modificatie, RL self-play, test-time scaling, en latent space manipulatie
- Draait op een 0.5B model (!) — Qwen2.5-0.5B-Instruct
De metafoor uit de paper is treffend: "Zoals een student haar studiestrategie aanpast per vak zonder te vergeten hóé je moet studeren, zo past SOLAR zich aan zonder catastrofale forgetting."
DjimIT takeaway: Dit is de techniek die de volgende generatie AI-systemen zal aandrijven. Voor overheidscontexten — fraudedetectie, uitkeringsbeoordeling, belastinginning — is concept drift een reëel probleem. SOLAR laat zien dat lifelong adaptation aan de horizon staat.
Wat dit betekent voor de publieke sector
Deze twee papers schetsen samen een genuanceerd beeld:
Wat kan wél (vandaag):
- AI-ondersteunde vulnerability scanning voor bekende kwetsbaarheidsklassen
- Gestructureerde multi-agent architecturen die stappen en kosten reduceren
- Lokale AI-agents op bescheiden hardware (het MagenticLite-narratief)
Wat kan nog niet:
- Business logic vulnerabilities herkennen
- Coherent opereren over zeer lange interactieketens (>50 stappen)
- Autonoom beslissen over timing-afhankelijke exploits
Wat komt eraan:
- Meta-learning agents die zich aanpassen aan veranderende wetgeving en fraudepatronen
- Test-time adaptation zonder volledige retraining — relevant voor EU AI Act article 14/15 monitoring
De governance-vraag
SOLAR stelt een fundamentele vraag die de EU AI Act nog niet expliciet adresseert: mag een AI-systeem zichzelf aanpassen aan nieuwe data, en zo ja, onder welk toezicht?
De AI Act vereist in artikel 14 menselijk toezicht op high-risk AI-systemen. Artikel 15 verplicht nauwkeurigheid, robuustheid en cybersecurity. Maar wat gebeurt er als een model zichzelf aanpast via meta-learning? Wie valideert de adaptatiestrategie? Hoe definieer je een "versie" van een model dat continu muteert?
Dit worden de compliance-vragen van 2027. De publieke sector doet er goed aan om nu al governance-kaders te ontwikkelen voor zelflerende systemen — vóórdat de leveranciers ermee komen.
Bronnen:
- Bouchari et al. (2026), "Autonomous LLM Agents & CTFs: A Second Look." DeMeSSAI @ IEEE EuroS&P. arXiv:2605.21497
- Vetcha & Liu (2026), "SOLAR: Self-Optimizing Open-Ended Autonomous Agent." AAAI 2026 Streaming CL Bridge. arXiv:2605.20189
- Microsoft Research (2026), "MagenticLite, MagenticBrain, Fara1.5." Microsoft Research Blog
DjimIT adviseert overheidsorganisaties over AI-governance, EU AI Act compliance, en BIO2/NIS2 security testing. Heeft uw organisatie vragen over de inzet van AI-agents? Neem contact op.
AI & Security Intelligence
Wekelijkse nieuwsbrief met AI updates, security alerts en compliance inzichten — direct in uw inbox.
Doorlopend Advies
Wilt u structurele begeleiding op AI, security & compliance?
Met een Advisory Subscription heeft u een externe sparringpartner die meedenkt op strategisch en technisch niveau — zonder de overhead van een fulltime dienstverband. Vanaf €1.500 per maand, maandelijks opzegbaar.
Ontdek Advisory Subscription →