Vorige week zat ik met een klant om tafel die AI-agents wil inzetten, maar geen data naar de cloud mag sturen. BIO2, AVG, politieke gevoeligheid, alles wat je in de publieke sector tegenkomt. Zijn vraag: "Kan een AI-agent lokaal draaien op gewone hardware en tóch nuttig zijn?"

Die vraag kreeg vandaag een antwoord. Liquid AI bracht LFM2.5-8B-A1B uit. En nee, dit is niet het beste model voor code generatie of juridische diepte-analyses. Het is iets anders, misschien wel interessanter.

Wat het wél is

Een Mixture-of-Experts model van 8 miljard parameters, waarvan er maar 1,5 miljard actief zijn. 128K contextvenster. 38 biljoen tokens training. Reasoning-only, het produceert een expliciete gedachtegang voor elk antwoord. En het draait lokaal: zo'n 250 tokens per seconde op een MacBook, 30 op een telefoon, onder 6GB werkgeheugen.

Maar de échte doorbraak zit in wat het níet doet: hallucineren.

De non-hallucination rate ging van 7% naar 63%. Bijna negen keer beter dan z'n voorganger. Liquid trainde het model met een avg@k reward-methode: het model wordt beloond voor "dat weet ik niet" zeggen in plaats van verzinnen. Een edge-model dat z'n onzekerheid kan uiten, voor governance-doeleinden is dat een fundamentele eigenschap.

De benchmark-winst is consistent over instruction following, tool calling, en math:

Benchmark	Vorige versie	Nieuwe versie
IFEval (instructie)	79%	92%
IFBench (tool use)	26%	56%
BFCLv3 (function calling)	45%	64%
Non-hallucination rate	7%	63%

Dat is geen marginale verbetering. Dat is een ander model.

Wat het níet is

Een coding-kampioen. Qwen3.5-4B verslaat 'm op meerdere agentic benchmarks. Gemma 4-26B scoort hoger op diepe math. Voor juridische analyse, architectuurkritiek of strategische vraagstukken stuur je door naar Claude, Gemini, of een groter lokaal model.

Liquid zegt het zelf: het model is niet de beste fit voor "heavy programming of knowledge-intensive QA zonder retrieval." Dat is eerlijk, en precies hoe je het moet gebruiken. LFM2.5 is niet de senior consultant. Het is de razendsnelle werkvoorbereider.

De echte use case: lokale MCP-dispatcher

Waar dit model wél in uitblinkt is tool calling. Liquid demonstreert het met LocalCowork: 67 tools over 13 MCP-servers, volledig lokaal. Tool-dispatch onder een seconde. Audit trail per executie. Geen data die de deur uitgaat.

Voor mijn klant met de BIO2-beperking is dit exact wat hij nodig heeft. Een lokaal model dat:

Bepaalt welke tool nodig is (filesystem? secrets scan? documentvergelijking?)
De toolselectie uitvoert met reasoning (waarom deze tool?)
Een audit trail achterlaat (welke tool, welke argumenten, welk resultaat)
Escaleert naar een zwaarder model als de taak te complex is

De governance die ik hieroverheen leg: OPA/Rego policies, tool authorization gateway, human-in-the-loop voor destructieve acties, en een immutable audit trail. Het model mag tools voorstellen, de policy engine beslist.

Het licentievraagstuk

Een governance-punt dat ik niet kan negeren: de LFM Open License v1.0 is Apache-gebaseerd maar bevat een $10M omzetdrempel. Gratis commercieel gebruik stopt als je organisatie meer dan $10M per jaar omzet. Voor persoonlijke R&D, PoC's en non-profit: geen probleem. Voor enterprise-klanten en de Rijksoverheid: juridisch toetsen vóór productiegebruik.

Past dit in een sovereign AI-stack?

Ja, als je het op de juiste plek zet.

Rol	Model
Lokale tool-router / MCP-dispatcher	LFM2.5
Privacygevoelige documenttriage	LFM2.5 + RAG
Diepe strategische analyse	Claude / Gemini
Zware codegeneratie	Qwen / GLM / Claude
Enterprise policy automation	LFM2.5 + OPA policy layer

De kracht zit niet in één model dat alles kan. Die bestaan niet. De kracht zit in een architecture die het juiste model op de juiste plek zet, en LFM2.5 is de snelste lokale dispatcher die ik tot nu toe heb gezien.

Wat ik ga testen

Ik zet LFM2.5 naast Qwen3.5-4B, Gemma-4-E4B en Granite-H-Tiny in een aantal scenario's: filesystem-taken, documentanalyse, security scans, coding triage, en prompt-injection cases. Ik meet tool selection accuracy, latency per dispatch, hallucinated tool calls, en policy violations. De resultaten deel ik hier.

Geen absolute scores, relatieve positionering. Welk model onthoudt context het best bij 128K? Welk model hallucineert het minst bij toolselectie? Welk model weigert terecht?

LFM2.5 is niet het antwoord op al je AI-vragen. Maar als antwoord op "kan ik een AI-agent lokaal laten draaien die écht nuttig is?" is het een serieuze kandidaat.

LFM2.5-8B-A1B is beschikbaar op Hugging Face en Liquid's Playground. Dag-één support voor llama.cpp, MLX, vLLM en SGLang.

Wat het wél is

Maar de échte doorbraak zit in wat het níet doet: hallucineren.

De benchmark-winst is consistent over instruction following, tool calling, en math:

Benchmark	Vorige versie	Nieuwe versie
IFEval (instructie)	79%	92%
IFBench (tool use)	26%	56%
BFCLv3 (function calling)	45%	64%
Non-hallucination rate	7%	63%

Dat is geen marginale verbetering. Dat is een ander model.

Wat het níet is

De echte use case: lokale MCP-dispatcher

Voor mijn klant met de BIO2-beperking is dit exact wat hij nodig heeft. Een lokaal model dat:

Bepaalt welke tool nodig is (filesystem? secrets scan? documentvergelijking?)
De toolselectie uitvoert met reasoning (waarom deze tool?)
Een audit trail achterlaat (welke tool, welke argumenten, welk resultaat)
Escaleert naar een zwaarder model als de taak te complex is

Het licentievraagstuk

Past dit in een sovereign AI-stack?

Ja, als je het op de juiste plek zet.

Rol	Model
Lokale tool-router / MCP-dispatcher	LFM2.5
Privacygevoelige documenttriage	LFM2.5 + RAG
Diepe strategische analyse	Claude / Gemini
Zware codegeneratie	Qwen / GLM / Claude
Enterprise policy automation	LFM2.5 + OPA policy layer

Wat ik ga testen

Geen absolute scores, relatieve positionering. Welk model onthoudt context het best bij 128K? Welk model hallucineert het minst bij toolselectie? Welk model weigert terecht?

LFM2.5 is niet het antwoord op al je AI-vragen. Maar als antwoord op "kan ik een AI-agent lokaal laten draaien die écht nuttig is?" is het een serieuze kandidaat.

LFM2.5-8B-A1B is beschikbaar op Hugging Face en Liquid's Playground. Dag-één support voor llama.cpp, MLX, vLLM en SGLang.

Liquid AI's nieuwe edge-model: supersnel toolen op je eigen laptop - en dat is precies wat de overheid nodig heeft

Wat het wél is

Wat het níet is

De echte use case: lokale MCP-dispatcher

Het licentievraagstuk

Past dit in een sovereign AI-stack?

Wat ik ga testen