Van Cloud naar Controle een technisch overzicht van lokale large language Models (LLM’s).

by Djimit

Deel 1: De Strategische Noodzaak voor Lokale LLM’s

De initiële golf van adoptie van Large Language Models (LLM’s) werd grotendeels gedreven door de toegankelijkheid en de indrukwekkende prestaties van cloud-gebaseerde diensten zoals die van OpenAI, Google en Anthropic. Echter, naarmate organisaties deze technologieën dieper in hun kernprocessen integreren, verschuift de focus van louter technologische capaciteit naar strategische overwegingen. Een groeiend aantal bedrijven, met name in datagevoelige en gereguleerde sectoren, erkent dat het uitbesteden van AI-inferentie aan externe partijen significante risico’s met zich meebrengt op het gebied van privacy, kosten en controle. Deze realisatie heeft een tweede, meer volwassen adoptiegolf ingeluid: de overstap naar lokaal gehoste LLM’s. Deze modellen, die direct op de hardware van de organisatie draaien—variërend van krachtige servers tot standaard desktops en laptops—zijn niet langer een niche voor hobbyisten, maar een strategische noodzaak voor bedrijven die streven naar digitale soevereiniteit.

Lokale LLM’s

1.1. De Verschuiving naar Digitale Soevereiniteit en Controle

De belangrijkste drijfveer achter de adoptie van lokale LLM’s is de fundamentele wens om de volledige controle over data en processen terug te winnen. Deze controle manifesteert zich in vier cruciale domeinen.

Data Privacy en Vertrouwelijkheid

Het meest directe en dwingende argument voor lokale LLM’s is de garantie van dataprivacy. Bij het gebruik van cloud-gebaseerde API’s verlaat gevoelige informatie, zoals intellectueel eigendom, strategische bedrijfsplannen, financiële gegevens of persoonlijke klantinformatie, onvermijdelijk het beveiligde bedrijfsnetwerk.1 Elke prompt en elke respons wordt verwerkt op de servers van een derde partij, wat een inherent risico op datalekken, onbevoegde toegang of misbruik met zich meebrengt.3 Lokale LLM’s elimineren dit risico fundamenteel: alle data, van de input-prompt tot de gegenereerde output, blijft te allen tijde binnen de eigen infrastructuur.4 Dit is geen triviaal voordeel, maar een absolute vereiste voor organisaties die opereren in sectoren waar vertrouwelijkheid van het grootste belang is.

Regelgeving en Compliance (AVG/GDPR, HIPAA).

Voor organisaties die actief zijn in Europa en daarbuiten, legt de Algemene Verordening Gegevensbescherming (AVG/GDPR) strenge eisen op aan de verwerking en overdracht van persoonsgegevens. Vergelijkbare wetgeving, zoals de Health Insurance Portability and Accountability Act (HIPAA) in de Amerikaanse gezondheidszorg, stelt eveneens strikte regels.5 Lokale LLM’s bieden een directe en robuuste oplossing voor deze compliance-uitdagingen. Door dataverwerking binnen de eigen geografische en juridische grenzen te houden, wordt voldaan aan de eisen van datasoevereiniteit en worden complexe vraagstukken rond grensoverschrijdende dataoverdracht vermeden.5 Bovendien biedt een lokale setup de mogelijkheid om volledige en onveranderlijke audittrails te onderhouden. Organisaties kunnen exact loggen welk model door wie, wanneer en met welke data is gebruikt, wat essentieel is voor het aantonen van compliance tijdens audits.4

Kostenbeheersing en Voorspelbaarheid

Cloud-gebaseerde LLM-diensten hanteren doorgaans een ‘pay-per-call’ of ‘pay-per-token’ prijsmodel. Hoewel dit flexibel lijkt voor incidenteel gebruik, kan het bij grootschalige of intensieve inzet leiden tot onvoorspelbare en snel escalerende operationele kosten.1 Een lokale implementatie transformeert dit model. De initiële investering in hardware (CAPEX) en de voorspelbare operationele kosten voor stroom en onderhoud (OPEX) vervangen de variabele, op gebruik gebaseerde kosten.4 Hierdoor kunnen organisaties hun AI-budget nauwkeurig plannen en beheren, zonder angst voor onverwachte pieken in de facturering. Dit model elimineert tevens het risico op ‘vendor lock-in’, waarbij een organisatie afhankelijk wordt van de prijsstelling en de technologische roadmap van één enkele cloudleverancier.4

Digitale Soevereiniteit en Bedrijfscontinuïteit

De afhankelijkheid van een externe cloudprovider creëert een kwetsbaarheid in de bedrijfscontinuïteit. Een storing bij de API-provider, een internetonderbreking of zelfs een strategische wijziging in het aanbod van de leverancier kan kritieke bedrijfsprocessen lamleggen. Lokale LLM’s bieden volledige onafhankelijkheid en garanderen dat AI-functionaliteiten operationeel blijven, ongeacht externe factoren.2 Dit is van onschatbare waarde voor sectoren zoals defensie, kritieke infrastructuur, logistiek en productie, waar uptime niet onderhandelbaar is.4 De ultieme vorm van deze soevereiniteit is de mogelijkheid om LLM’s te implementeren in volledig ‘air-gapped’ omgevingen—systemen zonder enige verbinding met het internet. Dit is de gouden standaard voor de verwerking van staatsgeheimen of uiterst gevoelige onderzoeksdata.5

Lokale Large Language Models (LLM’s)

1.2. Prestaties en Betrouwbaarheid: De Technische Voordelen

Naast de strategische voordelen biedt een lokale aanpak ook concrete technische en prestatiegerelateerde voordelen die de effectiviteit en relevantie van de AI-toepassingen verhogen.

Gereduceerde Latentie

De snelheid van een AI-systeem is vaak bepalend voor de bruikbaarheid ervan. Bij cloud-gebaseerde modellen wordt elke interactie vertraagd door de ‘round trip time’: de tijd die nodig is om de data via het internet naar de server van de provider te sturen en de respons terug te ontvangen. Door de LLM lokaal te draaien, op de desktop van de gebruiker of op een server in het lokale netwerk, wordt deze internet-hop volledig geëlimineerd.2 Dit resulteert in een drastisch lagere latentie en nagenoeg onmiddellijke responsen, wat cruciaal is voor real-time toepassingen zoals interactieve stemassistenten, live documentverwerking, of directe ondersteuning in een productieomgeving.4

Maatwerk en Fine-Tuning

Generieke, cloud-gebaseerde modellen zoals ChatGPT of Gemini bezitten een brede algemene kennis, maar missen de specifieke context van een individuele organisatie.2 Lokale, open-source modellen bieden de mogelijkheid tot diepgaand maatwerk. Organisaties kunnen deze modellen ‘fine-tunen’ op hun eigen, propriëtaire datasets, zoals verkooprapporten, technische handleidingen, juridische documenten of klantenservice-transcripties.4 Het resultaat is een LLM dat de unieke terminologie, processen, producten en klanten van het bedrijf ‘begrijpt’. Dit leidt tot output die significant relevanter, nauwkeuriger en directer toepasbaar is dan wat een generiek model kan produceren. Een logistiek bedrijf kan bijvoorbeeld een model trainen om zendingssamenvattingen te genereren die perfect aansluiten bij de interne rapportagestandaarden.4

Controle en Observeerbaarheid

Een lokale implementatie geeft een organisatie de volledige controle over de gehele AI-stack, van de hardware tot de modelconfiguratie. Deze controle maakt een niveau van ‘observeerbaarheid’ mogelijk dat ondenkbaar is bij een black-box cloud-API.4 IT- en DevOps-teams kunnen gedetailleerde prestatie-indicatoren monitoren, zoals het geheugengebruik (RAM en VRAM), de CPU- en GPU-belasting, de latentie per request en het aantal verwerkte tokens per seconde. Op beveiligingsvlak kunnen ze API-fouten, het geheugengebruik per gebruiker en zelfs verdachte of afwijkende querypatronen loggen en analyseren. Deze diepgaande monitoring is essentieel voor het optimaliseren van de prestaties, het waarborgen van de stabiliteit en het proactief identificeren van beveiligingsrisico’s.

De overstap naar een lokale LLM-infrastructuur is echter niet zonder uitdagingen. De belofte van volledige controle en soevereiniteit wordt geconfronteerd met de realiteit van verhoogde complexiteit. Waar een cloud-API een eenvoudige, beheerde dienst is, vereist een lokale setup een actieve rol van de organisatie. Dit omvat de initiële investering in geschikte hardware, de technische expertise voor installatie, configuratie en onderhoud van de softwarestack, en de verantwoordelijkheid voor het up-to-date houden van modellen en beveiligingspatches.6 De strategische voordelen zijn alleen te realiseren als de organisatie bereid en in staat is om deze operationele complexiteit te beheren. De volgende delen van dit rapport zijn ontworpen om precies die complexiteit te demystificeren en een praktisch stappenplan te bieden voor een succesvolle implementatie.

1.3. Toepassingsgebieden in de Praktijk

De theoretische voordelen van lokale LLM’s vertalen zich naar concrete, waardevolle toepassingen in diverse sectoren, met name daar waar data-integriteit en vertrouwelijkheid voorop staan.

Gereguleerde Sectoren

Gezondheidszorg: Medische instellingen kunnen lokale LLM’s inzetten voor de analyse van elektronische patiëntendossiers (EPD’s) en transcripties van arts-patiëntgesprekken. Dit kan helpen bij het identificeren van trends in ziektebeelden, het optimaliseren van behandelplannen of het samenvatten van complexe medische geschiedenissen, alles met de garantie dat de patiëntgegevens het beveiligde ziekenhuisnetwerk nooit verlaten en volledig in lijn met de HIPAA-normen blijven.5
Financiële Dienstverlening: Banken en verzekeraars gebruiken lokale modellen voor het verwerken van vertrouwelijke financiële documenten, het analyseren van marktdata voor risicobeoordeling, en het ontwikkelen van fraudedetectiesystemen.3 Doordat alle data lokaal blijft, wordt voldaan aan strenge regelgeving en wordt het risico op lekken van gevoelige klantinformatie geminimaliseerd.
Juridische Sector: Advocatenkantoren kunnen lokale LLM’s gebruiken voor het veilig doorzoeken en analyseren van enorme hoeveelheden vertrouwelijke juridische documenten, zoals contracten, pleitnota’s en jurisprudentie. Dit versnelt het onderzoeksproces (e-discovery) en helpt bij het identificeren van relevante precedenten zonder het risico op schending van het beroepsgeheim.3
Overheid en Defensie: Dit is wellicht het meest kritieke toepassingsgebied. Overheidsinstanties en defensieorganisaties zetten lokale LLM’s in voor de analyse van geclassificeerde documenten, het ondersteunen van strategische en militaire planning, en het verwerken van gevoelige inlichtingendata.5 Deze systemen draaien vaak in volledig ‘air-gapped’ omgevingen om maximale veiligheid te garanderen. Een bekend voorbeeld is de ontwikkeling door Microsoft van gespecialiseerde, offline versies van GPT-4 voor Amerikaanse inlichtingendiensten, wat de volwassenheid en het strategisch belang van deze technologie onderstreept.5

Algemene Bedrijfsprocessen

Klantenservice: Organisaties kunnen intelligente chatbots en virtuele assistenten bouwen die draaien op lokale LLM’s. Deze bots kunnen worden gefinetuned op de interne kennisbank, producthandleidingen en historische klantenservicetickets.2 Het resultaat is een 24/7 beschikbare ondersteuning die snelle, accurate en contextueel relevante antwoorden geeft, zonder dat gevoelige klantdata naar een externe partij wordt gestuurd.
Softwareontwikkeling: Ontwikkelteams kunnen lokale ‘copilots’ inzetten die helpen bij het schrijven, uitleggen en debuggen van code. Doordat het model lokaal draait, wordt de broncode—vaak het meest waardevolle intellectuele eigendom van een techbedrijf—nooit blootgesteld aan externe servers, wat een significant beveiligingsrisico elimineert.11
HR en Onboarding: Een lokaal LLM kan worden ingezet als een interactieve assistent voor nieuwe medewerkers. Het kan vragen beantwoorden over bedrijfsbeleid, IT-procedures en functie-specifieke taken door direct informatie te halen uit interne HR-documenten en handleidingen, wat het onboardingproces stroomlijnt en personaliseert.6
Document- en Kennisbeheer: Voor elke organisatie die worstelt met grote hoeveelheden ongestructureerde informatie—verspreid over rapporten, ticketsystemen, en e-mails—kan een lokaal LLM een krachtige oplossing bieden. Het kan direct lange documenten samenvatten, specifieke vragen beantwoorden over de inhoud van een interne wiki, of geautomatiseerde voortgangsrapportages genereren op basis van projectupdates.2

Deel 2: Fundamenten van Lokale LLM-Technologie

Om de praktische implementatie van lokale LLM’s te begrijpen, is het essentieel om de onderliggende technologieën te doorgronden die deze revolutie mogelijk maken. De opkomst van lokale AI is niet alleen te danken aan de beschikbaarheid van open-source modellen, maar vooral aan de innovaties die deze complexe modellen uitvoerbaar maken op alledaagse hardware. Twee concepten staan hierin centraal: het GGUF-bestandsformaat en de techniek van kwantisatie. Deze technologieën hebben de drempel voor toegang zo drastisch verlaagd dat een heel ecosysteem van gebruiksvriendelijke tools kon ontstaan. Zonder hen zouden lokale LLM’s een niche voor experts met high-end servers zijn gebleven.

2.1. Anatomie van een Lokaal Model: Het GGUF-formaat

Het GPT-Generated Unified Format (GGUF) is een binair bestandsformaat dat speciaal is ontworpen om LLM’s efficiënt op te slaan, te delen en te laden voor inferentie (het genereren van output), met name op consumentenhardware.13 Het werd geïntroduceerd door het

llama.cpp-project en is de opvolger van het eerdere GGML-formaat.13

Het belangrijkste kenmerk van GGUF is zijn ‘alles-in-één’ structuur. Traditionele modelformaten, zoals die van PyTorch, slaan verschillende componenten van een model op in aparte bestanden: de modelgewichten (de ‘kennis’ van het model), de configuratie van de tokenizer (die tekst omzet in getallen die het model begrijpt), en andere metadata. GGUF bundelt al deze elementen in één enkel, self-contained bestand.17 Dit heeft de complexiteit van modelbeheer en distributie drastisch verminderd. Gebruikers hoeven slechts één bestand te downloaden en te beheren, wat een sleutelfactor is in het gebruiksgemak van populaire tools zoals Ollama en LM Studio.

Daarnaast is GGUF ontworpen met het oog op uitbreidbaarheid. Het formaat kan nieuwe informatie, zoals metadata voor nieuwe kwantisatiemethoden of modelparameters, bevatten zonder de compatibiliteit met oudere modellen te verbreken.16 Dit zorgt voor een robuust en toekomstbestendig ecosysteem.

2.2. De Kunst van het Verkleinen: Kwantisatie

Een van de grootste obstakels voor het lokaal draaien van LLM’s is hun omvang. Een model met 7 miljard parameters vereist in zijn standaard 32-bit floating point (FP32) precisie ongeveer 28 GB aan geheugen, ver buiten het bereik van de meeste laptops en desktops.18 Kwantisatie is de techniek die dit probleem oplost.

Wat is Kwantisatie?

Kwantisatie is een compressietechniek die de geheugen- en rekenvereisten van een neuraal netwerk reduceert door de precisie van de numerieke waarden (de ‘gewichten’ van het model) te verlagen.18 In plaats van elke waarde op te slaan als een 32-bit of 16-bit getal met hoge precisie, worden ze omgezet naar integers met een veel lagere precisie, zoals 8-bit (int8), 4-bit (int4), of zelfs lager.

De voordelen zijn tweeledig:

Gereduceerd Geheugengebruik: De impact is enorm. Een overstap van FP16 (16-bit) naar int8 halveert de modelgrootte. Een verdere stap naar int4 halveert het nogmaals. Hierdoor past een 7B-model in 4-bit kwantisatie (ongeveer 3.5-4 GB) comfortabel in het werkgeheugen (RAM) van een moderne laptop of het videogeheugen (VRAM) van een consumenten-GPU.18
Snellere Inferentie: Omdat de getallen eenvoudiger zijn en minder data verplaatst hoeft te worden, kunnen berekeningen sneller worden uitgevoerd. Dit leidt tot een lagere latentie en een hoger aantal gegenereerde tokens per seconde.18

De keerzijde is een potentieel verlies in nauwkeurigheid. Het reduceren van de precisie kan de prestaties van het model (gemeten in ‘perplexity’) licht beïnvloeden. Geavanceerde kwantisatiemethoden zijn echter ontworpen om dit verlies te minimaliseren.13

Populaire Kwantisatiemethoden:

GPTQ (Post-Training Quantization): Een populaire en snelle methode die modellen na de training comprimeert naar 3 of 4 bits per gewicht, met minimaal verlies van nauwkeurigheid. Het is ontworpen om efficiënt te schalen naar zeer grote modellen.18
AWQ (Activation-aware Weight Quantization): Deze methode erkent dat niet alle gewichten in een model even belangrijk zijn. AWQ identificeert en beschermt de meest ‘ saillante’ ~1% van de gewichten tegen agressieve kwantisatie, waardoor de algehele prestaties behouden blijven. Dit maakt het bijzonder geschikt voor apparaten met beperkte middelen.18
QLoRA (Quantized Low-Rank Adaptation): Hoewel primair een techniek voor efficiënt fine-tunen, is QLoRA gebaseerd op het principe van kwantisatie. Het laadt het volledige basismodel in een zeer efficiënte 4-bit precisie en traint vervolgens alleen kleine, toegevoegde ‘adapter’-matrices in een hogere precisie. Dit maakt het mogelijk om modellen te fine-tunen op een enkele consumenten-GPU.20

2.3. Hardwarevereisten en Prestatie-indicatoren

De strategische voordelen van lokale LLM’s zijn verleidelijk, maar de implementatie ervan begint met een harde realiteitscheck van de beschikbare hardware. De prestaties zijn direct gekoppeld aan de capaciteiten van de machine waarop het model draait. Een organisatie moet daarom beginnen met een inventarisatie van de hardware op de desktops en laptops van de beoogde gebruikers. De belofte “draait op je laptop” 1 moet worden gekwalificeerd met “maar de prestaties hangen af van…”. Een mismatch tussen het gekozen model en de hardware leidt onvermijdelijk tot een mislukte pilot en een negatieve perceptie van de technologie.

Minimumvereisten:

De meeste moderne tools en backends, zoals llama.cpp, vereisen een CPU die de AVX (Advanced Vector Extensions) of AVX2 instructiesets ondersteunt. Dit is standaard op de meeste processoren van na ~2011, maar kan een beperking zijn op zeer oude hardware.24

RAM (Werkgeheugen):

Voor inferentie die primair op de CPU draait, is de hoeveelheid beschikbaar RAM de meest kritische factor. Het volledige gekwantiseerde model moet in het RAM passen, samen met het besturingssysteem en andere applicaties. De vuistregels zijn als volgt 25:

7B-parameter modellen (bv. Llama 3.1 8B, Mistral 7B): Vereisen minimaal 8 GB RAM, maar 16 GB wordt sterk aanbevolen voor comfortabel gebruik.
13B-parameter modellen (bv. Tiefighter 13B): Vereisen minimaal 16 GB RAM, maar 32 GB is wenselijk.
30B+ parameter modellen: Vereisen minimaal 32 GB RAM, met 64 GB of meer voor grotere modellen.

VRAM (Video RAM):

Voor GPU-versnelde inferentie is de hoeveelheid VRAM op de grafische kaart de beperkende factor. Hoe meer van het model in het snelle VRAM past, hoe sneller de inferentie. Een GPU met minimaal 8 GB VRAM wordt aanbevolen om een merkbaar prestatieverschil te zien ten opzichte van pure CPU-inferentie.24

GPU Offloading:

Dit is een cruciale techniek voor systemen met een capabele GPU die echter niet genoeg VRAM heeft om het hele model te laden. GPU offloading stelt de gebruiker in staat om een specifiek aantal lagen van het model op de GPU te laden (in VRAM), terwijl de resterende lagen op de CPU worden verwerkt (in RAM).26 Dit biedt een flexibele balans tussen prestatieverbetering en de mogelijkheid om modellen te draaien die technisch gezien ’te groot’ zijn voor het VRAM van de GPU. De meeste tools bieden een eenvoudige instelling (

GPU Layers of GPU Offload) om dit te configureren.

Deel 3: Het Ecosysteem van Lokale LLM-Tools: Een Vergelijkende Analyse

De snelle democratisering van lokale LLM’s heeft geleid tot een rijk en divers ecosysteem van softwaretools. Deze tools variëren sterk in complexiteit, doelgroep en functionaliteit. Een oppervlakkige blik zou een landschap van concurrerende producten kunnen suggereren, maar een diepere analyse onthult een gelaagd, vaak symbiotisch ecosysteem. De keuze voor een tool is zelden exclusief; organisaties kunnen verschillende tools combineren om te voldoen aan de uiteenlopende behoeften van hun gebruikers, van niet-technische medewerkers tot gespecialiseerde ontwikkelaars.

3.1. Overzicht van de Markt: Categorieën van Tools

Om het landschap te structureren, kunnen de beschikbare tools worden ingedeeld in drie hoofdcategorieën 1:

Full-Stack Oplossingen / Desktop Applicaties: Deze tools bieden een alles-in-één ervaring, waarbij de server-backend, het modelbeheer en een gebruiksvriendelijke chatinterface zijn geïntegreerd in één enkele, eenvoudig te installeren applicatie. Ze zijn primair gericht op gebruiksgemak en een snelle start voor zowel beginners als voor het snel prototypen van ideeën.
Voorbeelden: LM Studio, GPT4All, Jan.
Backend Servers & Geavanceerde Web-UI’s: Deze categorie bestaat uit twee componenten die vaak samen worden gebruikt: een krachtige backend-server die modellen beheert en beschikbaar stelt via een API, en een aparte, zeer configureerbare web-interface die met deze API communiceert. Deze aanpak is gericht op ontwikkelaars, power-users en systeembeheerders die meer controle en flexibiliteit wensen.
Voorbeelden: Ollama (server), LocalAI (API-first server), Text Generation Web UI (geavanceerde UI), KoboldCpp (alles-in-één, maar met een zeer geavanceerde UI).
Kernbibliotheken en Compilers: Dit zijn de fundamentele softwarecomponenten die de daadwerkelijke AI-inferentie mogelijk maken. Ze vormen de ‘motor’ onder de motorkap van de tools in de andere categorieën. Deze bibliotheken zijn bedoeld voor ontwikkelaars die diepe integratie, maximale prestaties of ondersteuning voor specifieke hardware-architecturen nodig hebben.
Voorbeelden: llama.cpp, MLC LLM.

3.2. Gedetailleerde Tool-Profielen

Hieronder volgt een gedetailleerde analyse van de meest prominente tools in het ecosysteem, waarbij de kenmerken, licenties en doelgroepen worden belicht.

Ollama

Beschrijving: Ollama heeft zich snel gepositioneerd als de favoriete tool voor ontwikkelaars die een lokale, OpenAI-compatibele API-server willen opzetten. Het functioneert als een gestroomlijnde achtergrondservice die het beheer en de uitvoering van LLM’s vereenvoudigt.30
Kenmerken: De aanpak is ‘CLI-first’, met eenvoudige commando’s zoals ollama run <modelnaam> om een model te starten. Het hart van Ollama’s flexibiliteit is de Modelfile, een configuratiebestand waarmee gebruikers modellen kunnen aanpassen, GGUF-bestanden kunnen importeren, en parameters zoals temperatuur of systeemprompts kunnen instellen.25 Het ondersteunt GPU-versnelling op alle grote platforms.33
Ecosysteem: Ollama wordt zelden alleen gebruikt voor interactieve sessies. Het wordt doorgaans ingezet als de backend voor geavanceerdere frontends zoals Open WebUI 35 of geïntegreerd in ontwikkeltools en scripts.
Licentie & OS: MIT-licentie. Officieel ondersteund op macOS, Windows, en Linux, met goed onderhouden Docker-images voor containerized implementaties.25

LM Studio

Beschrijving: LM Studio is een desktopapplicatie die zich volledig richt op gebruiksgemak. Het biedt een gepolijste grafische interface (GUI) die het voor niet-technische gebruikers mogelijk maakt om modellen te ontdekken, downloaden en gebruiken zonder enige interactie met de command-line.37
Kenmerken: De applicatie heeft een ingebouwde zoekfunctie die direct koppelt met de Hugging Face-repository. De chatinterface is vergelijkbaar met die van ChatGPT. Cruciaal voor zakelijk gebruik is de ingebouwde, met één klik te starten OpenAI-compatibele server en de functionaliteit om met lokale documenten te chatten (RAG).37 Het biedt verschillende UI-modi (User, Power User, Developer) die meer geavanceerde instellingen ontsluiten naarmate de gebruiker meer ervaring opdoet.40
Licentie & OS: Hierin schuilt een belangrijke strategische overweging. De GUI-applicatie zelf is closed-source en propriëtair. Hoewel het bedrijf stelt geen gebruikersdata te verzamelen 41, kan dit niet onafhankelijk worden geverifieerd. Dit kan een dealbreaker zijn voor organisaties met de strengste beveiligingseisen. De onderliggende command-line tool (lms) en de SDK’s zijn wel open-source onder een MIT-licentie.41 LM Studio is beschikbaar voor macOS (zowel Apple Silicon als Intel), Windows en Linux.41

GPT4All

Beschrijving: GPT4All is een volledig open-source ecosysteem, ontwikkeld door Nomic AI, met een sterke nadruk op privacy en het draaien van LLM’s op standaard consumenten-CPU’s, zonder de noodzaak van een krachtige GPU.23
Kenmerken: Het biedt een eenvoudige desktop-chatclient en een unieke “LocalDocs”-functie voor het privé chatten met bestanden. Een onderscheidend kenmerk is de opt-in “Data Lake”, waarmee gebruikers anoniem conversatiedata kunnen doneren om te helpen bij het trainen van betere open-source modellen.23 Het project omvat ook een Python SDK voor programmatische toegang.46 Voor zakelijke klanten biedt Nomic AI een enterprise-versie met extra ondersteuning, SOC2-compliance en beveiligingsgaranties.47
Licentie & OS: MIT-licentie. Beschikbaar voor Windows, macOS en Ubuntu.23

Text Generation Web UI (oobabooga)

Beschrijving: Vaak omschreven als de “AUTOMATIC1111 van tekstgeneratie” (een verwijzing naar de de-facto standaard UI voor Stable Diffusion), is dit de meest krachtige, flexibele en configureerbare web-interface voor power-users, ontwikkelaars en onderzoekers.49
Kenmerken: De kracht ligt in de modulariteit. Het ondersteunt een breed scala aan inferentie-backends, waaronder llama.cpp, Transformers en ExLlamaV2. Het biedt een overweldigende hoeveelheid parameters om het generatieproces te sturen. Cruciaal is de ingebouwde functionaliteit voor het trainen van LoRA-adapters, waardoor gebruikers modellen kunnen fine-tunen op hun eigen data.51 Het heeft een levendig ecosysteem van extensies voor extra functionaliteit zoals Text-to-Speech (TTS), beeldgeneratie en vertaling.49
Licentie & OS: AGPL-3.0 licentie. Deze ‘copyleft’-licentie kan juridische implicaties hebben voor bedrijven die de software willen aanpassen en distribueren. Het is beschikbaar voor Windows, macOS en Linux, met zowel one-click installers als Docker-opties.49

Jan

Beschrijving: Jan positioneert zich als een volledig open-source, privacy-first alternatief voor ChatGPT dat 100% offline kan functioneren.55 Het streeft naar een balans tussen gebruiksgemak en aanpasbaarheid.
Kenmerken: Een uniek kenmerk is de hybride aanpak: het ondersteunt zowel lokaal draaiende modellen (via GGUF-import) als naadloze connecties met cloud-API’s zoals OpenAI en Groq. Dit geeft gebruikers de flexibiliteit om te kiezen tussen privacy (lokaal) en kracht (cloud) binnen dezelfde interface.55 Het bevat ook een ingebouwde API-server en een experimentele functie om met lokale bestanden te chatten.
Licentie & OS: Apache 2.0 licentie, wat over het algemeen als bedrijfsvriendelijker wordt beschouwd dan AGPL. Beschikbaar voor Linux, Windows en macOS.55

LocalAI

Beschrijving: Ontworpen als een “drop-in replacement” voor de OpenAI API, met een sterke focus op lokale, API-first implementaties. Het is bedoeld om te draaien op consumentenhardware, zelfs zonder GPU.57
Kenmerken: De kern is de API-compatibiliteit. Het ondersteunt meerdere inferentie-backends (waaronder llama.cpp en vLLM) en kan worden uitgebreid met modules voor agentic AI (LocalAGI) en semantische zoekopdrachten (LocalRecall).57 De configuratie is zeer flexibel via een groot aantal command-line flags en omgevingsvariabelen, wat het geschikt maakt voor DevOps- en MLOps-pijplijnen.59
Licentie & OS: MIT-licentie. De primaire distributiemethode is via containers (Docker, Podman, Kubernetes), wat het platform-agnostisch maakt.57

KoboldCpp

Beschrijving: Wat begon als een tool voor creatief schrijven en role-playing, is uitgegroeid tot een verrassend krachtige alles-in-één oplossing. Het combineert de efficiënte llama.cpp-backend met de uitgebreide KoboldAI-interface en wordt gedistribueerd als een enkel, installatievrij uitvoerbaar bestand.26
Kenmerken: Het feature-pakket is indrukwekkend: naast GGUF-ondersteuning biedt het integraties voor beeldgeneratie (Stable Diffusion), spraak-naar-tekst (Whisper), en een UI met persistentie, karakterbeheer en uitgebreide opmaaktools.26 Het biedt ook een OpenAI-compatibele API.61
Licentie & OS: AGPL v3.0 licentie. Het biedt pre-compiled binaries voor Windows en macOS, wat de installatie extreem eenvoudig maakt.26

Het is belangrijk op te merken dat er verwarring kan bestaan door vergelijkbare namen in de AI-ruimte. Zo is er naast het hier besproken LM Studio 42 ook TensorOps LLMstudio, een framework gericht op productie-applicaties.62 Evenzo moet LocalAI.io 57 niet worden verward met LocalAI.com, een consultancybedrijf.64 Hetzelfde geldt voor Faraday.dev, een offline AI-chattool 65 (die recentelijk is hernoemd naar Backyard AI 66), die losstaat van Faraday.ai (een platform voor klantgedragsvoorspelling) 67 en Faradaysec.com (een cybersecuritybedrijf).68 Deze onderscheidingen zijn cruciaal bij het evalueren van de juiste tool voor de taak.

3.3. Vergelijkingstabel en Aanbevelingen

De keuze voor een specifieke tool of stack hangt sterk af van de use case, de technische vaardigheden van het team en de security-eisen van de organisatie. De onderstaande tabel biedt een vergelijkend overzicht om deze beslissing te ondersteunen. Dit overzicht is van onschatbare waarde voor technische besluitvormers, omdat het hen in staat stelt om in één oogopslag een voorselectie te maken op basis van harde criteria die direct van invloed zijn op de bedrijfsstrategie. Een CISO zal bijvoorbeeld onmiddellijk de “Licentie”-kolom scannen, aangezien AGPL versus MIT belangrijke juridische implicaties heeft. Een CTO zal de “API-server” en “OS-ondersteuning” kolommen bestuderen voor integratie- en compatibiliteits doeleinden. Een Head of Data Science zal de kolommen “RAG” en “Fine-tuning” als cruciaal beschouwen voor de technische haalbaarheid van hun projecten. De tabel condenseert hiermee een grote hoeveelheid documentatie tot een strategisch besluitvormingsinstrument.

Tabel 1: Vergelijkend Overzicht van Lokale LLM-Implementatietools

CriteriumOllamaLM StudioGPT4AllText-Gen WebUIJanLocalAILicentieMIT 25GUI: Closed-sourceCLI/SDK: MIT 41MIT 46AGPL-3.0 49Apache 2.0 56MIT 57Primaire InterfaceCLI / API 25GUI (Desktop App) 38GUI (Desktop App) 23Web UI 49GUI (Desktop App) 55API 57OS-ondersteuningWin, macOS, Linux, Docker 25Win, macOS, Linux 41Win, macOS, Linux 23Win, macOS, Linux, Docker 49Win, macOS, Linux 56Primair Docker 57GGUF-ondersteuningJa (via Modelfile) 25Ja (native) 41Ja (native) 46Ja (native) 49Ja (import) 56Ja (via backends) 57API-serverJa (OpenAI-compatibel) 32Ja (OpenAI-compatibel) 39Ja 46Ja (OpenAI-compatibel) 49Ja (OpenAI-compatibel) 55Ja (OpenAI-compatibel) 57RAG (Chat met docs)Nee (vereist integratie)Ja (ingebouwd) 39Ja (LocalDocs) 23Ja (via extensies) 69Ja (experimenteel) 55Nee (vereist integratie)Fine-tuningNee (wel adapters) 32NeeNeeJa (LoRA/QLoRA) 70NeeNeeIdeaal ProfielOntwikkelaar, BackendBeginner, PrototypingPrivacy-bewuste gebruikerPower-user, OnderzoekerAllround gebruikerAPI-first, DevOps

De analyse van het ecosysteem onthult dat de keuze voor een tool niet alleen een technische afweging is, maar ook een van vertrouwen en verifieerbaarheid. LM Studio 41 is een perfect voorbeeld van het ‘open core’ model: de kerntechnologie is open source, maar de gebruiksvriendelijke GUI is dat niet. Voor organisaties waar privacy en controle de primaire drijfveren zijn 4, introduceert een closed-source component een element van onzekerheid. Hoewel de leverancier beweert geen data te verzamelen, kan dit niet onafhankelijk worden geverifieerd in de GUI-code. Voor organisaties met de allerhoogste beveiligingseisen, zoals in de defensie- of financiële sector, kan dit een onacceptabel risico vormen. Dit dwingt hen mogelijk om te kiezen voor volledig open-source stacks, zoals Ollama in combinatie met Open WebUI 36 of de Text Generation Web UI 49, zelfs als dit een grotere initiële configuratie-inspanning vereist. De keuze van een tool is dus een strategische afweging tussen gebruiksgemak, controle en verifieerbaar vertrouwen.

Deel 4: Implementatiehandleiding: Van Installatie tot Interactie

Dit deel biedt concrete, stapsgewijze instructies voor de installatie en basis configuratie van drie representatieve tools die verschillende gebruikersprofielen en use cases bestrijken: Ollama (backend-focus), LM Studio (GUI-focus), en Text Generation Web UI (power-user-focus). De gekozen installatiemethode voor elke tool is vaak een reflectie van de beoogde doelgroep en kan dienen als een eerste indicator voor de benodigde technische vaardigheden binnen de organisatie.

4.1. Stap-voor-stap Installatiegidsen

Installatie van Ollama (Backend-focus)

Ollama is ontworpen voor ontwikkelaars en systeembeheerders. De installatie is gestroomlijnd voor command-line omgevingen.

macOS en Linux: De meest gangbare methode is via een enkel curl-commando in de terminal. Dit script downloadt het Ollama-binary, plaatst het in de juiste directory en zet, indien mogelijk, de benodigde services op.25Bashcurl -fsSL https://ollama.com/install.sh | sh
Windows: De installatie op Windows vereist de Windows Subsystem for Linux (WSL2). De officiële installer van de Ollama-website begeleidt de gebruiker bij het opzetten van WSL2 indien dit nog niet aanwezig is.71
Docker: Voor maximale portabiliteit en isolatie is Docker de aanbevolen methode. Dit is ideaal voor server-implementaties of voor ontwikkelaars die een consistente omgeving willen.
**CPU-only:**Bashdocker run -d -v ollama:/root/.ollama -p 11434:11434 –name ollama ollama/ollama
Met NVIDIA GPU-ondersteuning: Vereist dat de NVIDIA Container Toolkit is geïnstalleerd op de hostmachine.73Bashdocker run -d –gpus=all -v ollama:/root/.ollama -p 11434:11434 –name ollama ollama/ollama
Verificatie: Na installatie draait Ollama als een achtergrondservice. De installatie kan worden geverifieerd door in de terminal ollama –version uit te voeren of door in een browser naar http://localhost:11434 te navigeren, waar de melding “Ollama is running” zou moeten verschijnen.71

Installatie van LM Studio (GUI-focus)

LM Studio richt zich op een breder publiek en volgt daarom de standaard installatieprocedure voor desktopapplicaties.

Download: Navigeer naar de officiële website (lmstudio.ai) en download de installer voor uw besturingssysteem (Windows .exe, macOS .dmg, of Linux .AppImage / .deb).76
Installatie: Voer het gedownloade bestand uit en volg de standaard installatiewizard. Op macOS betekent dit het slepen van het LM Studio-icoon naar de Applications-map.76
Eerste Start: Bij de eerste keer opstarten kan de applicatie de gebruiker vragen om een map te selecteren waar de gedownloade modellen moeten worden opgeslagen. Het is aan te raden hiervoor een specifieke map aan te maken op een schijf met voldoende ruimte.78 Er is geen verdere configuratie nodig om te beginnen.

Installatie van Text Generation Web UI (Power-user-focus)

Deze tool biedt meerdere installatiepaden, van zeer eenvoudig tot volledig handmatig, wat de flexibiliteit voor power-users weerspiegelt.

One-Click Installers: De eenvoudigste methode is het gebruik van de start_* scripts (start_windows.bat, start_linux.sh, start_macos.sh) die in de repository worden meegeleverd.49 Dit script zet automatisch een geïsoleerde Conda-omgeving op, downloadt PyTorch en alle benodigde dependencies. Bij de eerste uitvoering wordt de gebruiker gevraagd om zijn GPU-leverancier (NVIDIA, AMD, Apple, etc.) te selecteren.
Handmatige Installatie met Conda: Voor maximale controle kunnen gebruikers de installatie handmatig uitvoeren. Dit omvat het zelf aanmaken van een Conda- of Python-omgeving, het installeren van de juiste PyTorch-versie voor de specifieke hardware (CUDA, ROCm, CPU), en vervolgens het installeren van de dependencies uit het juiste requirements.txt-bestand.49
Server Starten: Na de installatie wordt de webinterface gestart door het server.py-script uit te voeren. De UI is dan toegankelijk via http://127.0.0.1:7860 in een webbrowser.70

4.2. Modelkeuze en -configuratie

Een succesvolle implementatie hangt af van de juiste modelkeuze en -configuratie, met name wat betreft GPU-gebruik.

Model Discovery en Download:

Modellen in het GGUF-formaat zijn te vinden op platforms zoals Hugging Face. Zoek specifiek naar modellen met “GGUF” in de naam.26
In LM Studio kan dit direct via de ‘Discover’-tab. Zoek naar een model (bv. “Llama 3.1 8B Instruct”) en selecteer een gekwantiseerde versie (bv. Q4_K_M) om te downloaden.80
In Ollama gebeurt dit via de command-line: ollama pull llama3.1:8b. Ollama selecteert automatisch een geschikte kwantisatie.25
Voor Text Generation Web UI downloadt men het .gguf-bestand handmatig van Hugging Face en plaatst dit in de models-map.79
GPU-configuratie: De ‘Last Mile’ van PrestatiesDe basisinstallatie van de tools is vaak eenvoudig, maar het ontsluiten van de volledige kracht van de hardware via correcte GPU-configuratie is de ware uitdaging en een kritische stap voor een succesvolle pilot.34 Zonder deze optimalisatie blijven de prestaties suboptimaal en wordt het belangrijkste voordeel van lage latentie ondermijnd.
GPU Offloading: Dit is het belangrijkste concept. De gebruiker specificeert hoeveel lagen van het model naar het VRAM van de GPU moeten worden ‘offloaded’. Een waarde van -1 of ‘max’ betekent doorgaans “zoveel mogelijk lagen”. Een waarde van 0 betekent “geen GPU-gebruik”.

Configuratie in Tools:

In LM Studio en Text Generation Web UI is dit een schuifregelaar of een numeriek veld in de model-laad-instellingen, genaamd “GPU Offload” of “n-gpu-layers”.28
Ollama beheert dit grotendeels automatisch, maar geavanceerde configuratie is mogelijk via Modelfiles.

Hardware-specifieke Overwegingen:

NVIDIA (CUDA): Dit is de best ondersteunde architectuur. Zorg ervoor dat de nieuwste NVIDIA-drivers zijn geïnstalleerd. Tools zoals LM Studio en Text-Gen WebUI bundelen de benodigde CUDA-bibliotheken.82
AMD (ROCm): Ondersteuning kan complexer zijn. Soms is het nodig om omgevingsvariabelen in te stellen (bv. HSA_OVERRIDE_GFX_VERSION) om niet-officieel ondersteunde kaarten toch te laten werken.34
Apple Silicon (Metal): Ondersteuning is over het algemeen uitstekend en ‘out-of-the-box’ in tools die llama.cpp gebruiken, zoals LM Studio en Ollama. De unified memory architectuur van Apple Silicon is hier een groot voordeel.84
Multi-GPU: Voor high-end systemen biedt LM Studio geavanceerde controles om te specificeren welke GPU’s moeten worden gebruikt, en hoe de lagen over de kaarten moeten worden verdeeld.82

4.3. Eerste Interactie en Basisgebruik

Chatten via CLI (Ollama): Na het pullen van een model, start een interactieve sessie met:Bashollama run llama3.1:8bVervolgens kan de gebruiker direct prompts invoeren.25
Chatten via GUI (LM Studio): Ga naar de ‘Chat’-tab (icoon met tekstballon). Selecteer het gedownloade model uit de dropdown-lijst bovenaan. Wacht tot het model is geladen (voortgangsbalk verschijnt) en begin met chatten in de interface.38
Starten van de API-server:
In LM Studio, ga naar de ‘Local Server’-tab (icoon <>) en klik op ‘Start Server’. De server draait standaard op localhost:1234.42
In Ollama draait de server automatisch op de achtergrond. De API is direct beschikbaar op localhost:11434.85
Een test met curl kan de werking verifiëren:Bashcurl http://localhost:1234/v1/chat/completions -H “Content-Type: application/json” -d ‘{“model”: “loaded-model-name”, “messages”:, “temperature”: 0.7}’
Monitoren van Resources: Tijdens het laden en gebruiken van een model is het cruciaal om het resourcegebruik te observeren. Gebruik de ingebouwde tools van het besturingssysteem:
Windows: Taakbeheer (Task Manager), tabblad Prestaties (Performance).
macOS: Activiteitenweergave (Activity Monitor).
Linux: htop voor CPU/RAM en nvidia-smi (voor NVIDIA GPU’s) of radeontop (voor AMD GPU’s) in de terminal.

Deel 5: Geavanceerde Toepassingen en Maatwerk

Zodra de basisinfrastructuur voor het lokaal draaien van LLM’s is opgezet, opent zich een wereld van geavanceerde toepassingen die de werkelijke bedrijfswaarde ontsluiten. Deze gaan verder dan eenvoudige vraag-en-antwoord-interacties en stellen organisaties in staat om de modellen diep te integreren in hun specifieke workflows en kennisdomeinen. De twee meest impactvolle technieken zijn Retrieval-Augmented Generation (RAG) en fine-tuning.

5.1. Retrieval-Augmented Generation (RAG): Chatten met Eigen Documenten

Fine-tuning is een krachtige maar complexe techniek. Voor veel organisaties is Retrieval-Augmented Generation (RAG) een veel pragmatischer en directer waardevolle eerste stap. RAG lost een fundamenteel probleem op: hoe maak je een LLM ‘slim’ over je eigen, vertrouwelijke bedrijfsdata zonder die data bloot te stellen of een duur en complex trainingsproces te doorlopen?.21 Een succesvolle RAG-pilot, die bijvoorbeeld aantoont dat medewerkers veilig kunnen chatten met de interne HR-handleiding of technische documentatie, creëert onmiddellijk draagvlak bij juridische, security- en business-afdelingen. Dit maakt RAG niet zomaar een geavanceerde feature, maar de meest effectieve ‘Trojan Horse’ voor de brede adoptie van lokale LLM’s binnen een onderneming.

Concept

RAG is een proces waarbij, in plaats van te vertrouwen op de statische, vooraf getrainde kennis van het model, relevante informatie dynamisch wordt opgehaald uit een externe kennisbron (zoals een verzameling PDF’s, Word-documenten of een interne wiki). Deze opgehaalde informatie wordt vervolgens als context toegevoegd aan de prompt die naar de LLM wordt gestuurd.87 Het model ‘leest’ dus de relevante passages en baseert zijn antwoord daarop, in plaats van te ‘hallucineren’ of te antwoorden dat het de informatie niet heeft.

Architectuur van een Lokale RAG-Stack

Een typische lokale RAG-pijplijn bestaat uit de volgende componenten:

Document Loader: Een script of bibliotheek (vaak via een framework als LangChain) laadt de bron-documenten (bv. PDF, DOCX, TXT).89
Text Splitter: De geladen documenten worden opgedeeld in kleinere, semantisch coherente ‘chunks’ of brokken tekst.
Embedding Model: Een gespecialiseerd, vaak kleiner model wordt gebruikt om van elke tekst-chunk een numerieke representatie te maken, een zogenaamde ‘vector embedding’. Dit kan een lokaal model zijn dat via Ollama wordt aangeroepen.87
Vector Database: Deze embeddings worden opgeslagen in een speciale database die geoptimaliseerd is voor het snel vinden van vergelijkbare vectoren. Voor lokale implementaties zijn lichtgewicht opties zoals ChromaDB 87 of Qdrant 90 populair.
Retriever: Wanneer een gebruiker een vraag stelt, wordt deze vraag eerst omgezet in een embedding. De retriever doorzoekt vervolgens de vector database en haalt de top-k (bv. de 5 meest relevante) tekst-chunks op die semantisch het meest lijken op de vraag van de gebruiker.
LLM: De oorspronkelijke vraag van de gebruiker wordt gecombineerd met de opgehaalde tekst-chunks tot een nieuwe, verrijkte prompt. Deze prompt wordt naar de lokale LLM (via de API van Ollama of LM Studio) gestuurd, die een antwoord genereert op basis van de verstrekte context.88

5.2. Fine-Tuning met Eigen Data (QLoRA)

Waar RAG kennis toevoegt aan een model, past fine-tuning het gedrag, de stijl of de vaardigheden van het model zelf aan.21 Dit is nuttig wanneer het doel is om het model een specifieke schrijfstijl aan te leren (bv. de ’tone of voice’ van het bedrijf) of het te specialiseren in een niche-taak (bv. het classificeren van specifieke soorten klantfeedback).

QLoRA als Efficiënte Methode

Volledige fine-tuning van een LLM is extreem rekenintensief en vereist meerdere high-end GPU’s. QLoRA (Quantized Low-Rank Adaptation) is een revolutionaire techniek die efficiënte fine-tuning mogelijk maakt op een enkele consumenten-GPU.20 Het doet dit door twee slimme trucs te combineren:

Het basismodel wordt in het geheugen geladen in een zeer efficiënte, gekwantiseerde 4-bit precisie en wordt ‘bevroren’ (de gewichten worden niet aangepast).
Alleen kleine, nieuw toegevoegde matrices, de zogenaamde ‘LoRA-adapters’, worden getraind. Deze adapters bevatten een fractie van het totale aantal parameters, wat het trainingsproces veel sneller en geheugenefficiënter maakt.21

Procesoverzicht voor Fine-Tuning

Dataset Voorbereiden: De sleutel tot succesvolle fine-tuning is een hoogwaardige, domeinspecifieke dataset. Deze moet worden gestructureerd in een formaat dat de tool begrijpt, vaak een JSON-formaat met instructie-respons-paren (vergelijkbaar met het Alpaca-formaat).21
Training Opzetten: Tools zoals Text Generation Web UI hebben een ingebouwde interface voor het trainen van LoRA’s. Hier kan de gebruiker het basismodel selecteren, de dataset laden, en parameters zoals de ‘rank’ (complexiteit van de adapter) en ‘learning rate’ instellen.51
Training Uitvoeren: Het trainingsproces wordt gestart. Het is belangrijk om de ‘loss’-waarde te monitoren. Een te lage loss-waarde kan duiden op ‘overfitting’, waarbij het model de trainingsdata uit het hoofd leert en zijn algemene redeneervermogen verliest.91
Adapter Toepassen: Na de training is het resultaat een klein adapter-bestand. Dit bestand kan dynamisch worden geladen ‘bovenop’ het oorspronkelijke basismodel om de nieuw aangeleerde stijl of vaardigheid te activeren.

5.3. Integratie in de Werkstroom: Lokale Copilots en AI-Agenten

De ultieme waarde van lokale LLM’s wordt gerealiseerd wanneer ze naadloos worden geïntegreerd in de dagelijkse tools en workflows van medewerkers.

IDE-integratie: De Lokale Copilot

Voor softwareontwikkelaars is een AI-codeerassistent een enorme productiviteitsverhoger. Cloud-gebaseerde copilots sturen echter potentieel gevoelige broncode naar externe servers, wat een onacceptabel risico kan zijn voor bedrijven met waardevol intellectueel eigendom.11 De opkomst van lokale LLM’s heeft dit paradigma veranderd. Het is nu mogelijk om een vergelijkbare, zo niet superieure, ervaring volledig lokaal te creëren. Dit is een fundamentele verschuiving die de de-facto standaard wordt in elke security-bewuste software-ontwikkelstraat.

VS Code: Extensies zoals ‘Continue’ en ‘CodeGPT’ kunnen worden geconfigureerd om de API van een lokaal draaiende Ollama- of LM Studio-server aan te spreken. Ontwikkelaars kunnen modellen zoals ‘CodeLlama’ of ‘DeepSeek Coder’ lokaal draaien en profiteren van codecompletie, -uitleg en -refactoring, zonder dat hun code ooit het lokale netwerk verlaat.93
JetBrains IDEs (IntelliJ, PyCharm, etc.): De JetBrains AI Assistant-plugin biedt expliciete ondersteuning voor het verbinden met lokale LLM’s via zowel Ollama als LM Studio. Dit stelt ontwikkelaars in staat om de krachtige, context-aware AI-functies van de IDE te gebruiken met een lokaal, privacy-bewust model.97

Backend voor AI-Agenten en Automatisering

Lokale LLM’s kunnen fungeren als het ‘brein’ voor autonome AI-agenten die complexe, meerstaps taken uitvoeren.100 Door de lokale API aan te roepen, kunnen automatiseringsscripts en -platforms de redeneercapaciteiten van een LLM gebruiken om beslissingen te nemen.

Workflow Automatisering: Een tool als n8n kan worden gekoppeld aan een lokale Ollama-instantie. Een workflow kan bijvoorbeeld automatisch nieuwe e-mailbijlagen lezen, de inhoud naar Ollama sturen voor een samenvatting, en het resultaat vervolgens in een projectmanagementtool plaatsen.1
Desktop Automatisering: Applicaties zoals AnythingLLM bieden een complete, lokale oplossing voor het beheren van documenten en het uitvoeren van taken. Ze bundelen een LLM, een vector database en een chatinterface in één desktopapplicatie, waardoor gebruikers een krachtige, privé-assistent hebben voor hun dagelijkse werk.102 Dit staat in schril contrast met opkomende cloud-gebaseerde UI-automatiseringstools, die schermafbeeldingen naar de cloud sturen en daardoor privacyrisico’s en onvoorspelbaar gedrag met zich meebrengen.103

Deel 6: Conclusies en Strategische Aanbevelingen

De verschuiving van cloud gebaseerde AI naar lokale Large Language Models markeert een significante maturatie van de markt. Wat begon als een technologische mogelijkheid, is geëvolueerd naar een strategische noodzaak voor organisaties die waarde hechten aan data-integriteit, voorspelbare kosten en digitale autonomie. De technologie is niet langer experimenteel; een robuust ecosysteem van open-source modellen, efficiënte bestandsformaten en gebruiksvriendelijke tools heeft lokale AI toegankelijk en praktisch haalbaar gemaakt voor een breed scala aan zakelijke toepassingen.

6.1. Samenvatting van de Belangrijkste Bevindingen

Dit onderzoek heeft verschillende kernpunten aan het licht gebracht die de basis vormen voor een succesvolle lokale LLM-strategie:

Controle is de primaire drijfveer: De beslissing om LLM’s lokaal te implementeren wordt fundamenteel gedreven door de behoefte aan controle. Controle over data om te voldoen aan privacy- en compliance-eisen (AVG, HIPAA), controle over de infrastructuur om vendor lock-in en onvoorspelbare kosten te vermijden, en controle over de beschikbaarheid om bedrijfscontinuïteit te garanderen, zelfs in offline of air-gapped scenario’s. Deze controle is geen luxe, maar een kernvereiste voor datagedreven en risicobewuste organisaties.
Technologische volwassenheid is bereikt: Het ecosysteem is klaar voor zakelijke toepassing. De combinatie van open-source modellen (zoals Llama 3.1, Mistral, Qwen), het efficiënte GGUF-bestandsformaat, geavanceerde kwantisatietechnieken (zoals QLoRA), en een breed scala aan implementatietools (van het gebruiksvriendelijke LM Studio tot het flexibele Ollama) biedt een solide technologische basis. Geavanceerde toepassingen zoals Retrieval-Augmented Generation (RAG) zijn relatief eenvoudig te implementeren en bieden onmiddellijke, tastbare waarde.
De afweging is Controle versus Complexiteit: De aanzienlijke voordelen van een lokale aanpak worden gecompenseerd door een toename in beheercomplexiteit. Organisaties nemen de verantwoordelijkheid op zich voor hardwarebeheer, software-installatie, configuratie, onderhoud en beveiliging. Een succesvolle implementatie vereist dan ook niet alleen een technologische investering, maar ook een investering in interne kennis en expertise.

6.2. Aanbevelingen voor Organisaties

Op basis van de analyse in dit rapport worden de volgende strategische aanbevelingen gedaan voor organisaties die de overstap naar lokale LLM’s overwegen:

Start Klein, Focus op Impact met RAG: Begin niet met een complex en resource-intensief fine-tuning project. De meest pragmatische en impactvolle eerste stap is een pilotproject gericht op Retrieval-Augmented Generation (RAG). Identificeer een goed afgebakende, hoogwaardige interne dataset, zoals HR-beleidsdocumenten, technische handleidingen of de interne kennisbank. Bouw een proof-of-concept die medewerkers in staat stelt om in natuurlijke taal vragen te stellen over deze documenten. Een eenvoudige, volledig lokale en open-source stack zoals Ollama als backend, ChromaDB als vector database, en een Python-script met LangChain is voldoende om de waarde snel en met beperkte middelen aan te tonen. Een succesvolle RAG-pilot levert direct bedrijfswaarde en creëert het benodigde draagvlak voor verdere investeringen.
Investeer in Expertise, niet alleen in Hardware: Het succes van een lokale LLM-implementatie hangt minder af van de aanschaf van de duurste GPU’s en meer van de aanwezigheid van de kennis om de softwarestack correct te configureren, te beheren en te beveiligen. Wijs een ‘champion’ of een klein, toegewijd team aan dat de opdracht krijgt om zich te specialiseren in het lokale LLM-ecosysteem. Deze expertise is cruciaal voor het selecteren van de juiste modellen, het optimaliseren van de prestaties via GPU-configuratie, en het oplossen van onvermijdelijke technische problemen.
Ontwikkel een Intern Governance-Framework: De aanname dat “lokaal” automatisch “veilig” is, is gevaarlijk. Een onbeveiligde of verkeerd geconfigureerde lokale API-server kan een significant intern beveiligingsrisico vormen.104 Organisaties moeten proactief een intern governance-framework ontwikkelen dat de volgende aspecten omvat:
Modelbeheer: Een beleid voor de selectie van modellen, met aandacht voor licenties (bv. MIT vs. AGPL), herkomst en betrouwbaarheid.
Toegangscontrole: Duidelijke regels over wie toegang heeft tot welke modellen en voor welke doeleinden. Dit kan worden geïmplementeerd via API-sleutels en netwerksegmentatie.
Logging en Auditing: Implementeer systemen voor het loggen van API-requests en modelgebruik om te kunnen monitoren wat er met de modellen wordt gedaan en om te voldoen aan compliance-eisen.
Veilige Implementatie: Stel strikte richtlijnen op voor het veilig configureren van API-servers, inclusief het beperken van toegang tot alleen vertrouwde interne netwerken.
Denk in Ecosysteem, niet in Silo’s: Erken dat er geen ‘one-size-fits-all’-oplossing is. Een softwareontwikkelaar heeft andere behoeften (een stabiele, snelle API voor IDE-integratie, zoals Ollama) dan een business analist of een marketingmedewerker (een gebruiksvriendelijke chatinterface voor experimenten, zoals LM Studio of Jan). Evalueer en selecteer een combinatie van tools die past bij de diverse gebruikersprofielen binnen de organisatie. Het aanbieden van een gestandaardiseerde, maar flexibele toolset bevordert een brede adoptie en voorkomt de wildgroei van onbeheerde, individuele installaties. Door deze aanbevelingen te volgen, kunnen organisaties de overstap van cloud naar controle op een weloverwogen, veilige en strategisch verantwoorde manier maken, en zo het volledige potentieel van lokale AI benutten om hun concurrentiepositie te versterken.

Infographic Lokale LLM

Geciteerd werk

How to Run a Local LLM: Complete Guide to Setup & Best Models (2025) – n8n Blog, geopend op juli 11, 2025, https://blog.n8n.io/local-llm/
How to Run Local LLMs: A Guide for Enterprises Exploring Secure AI Solutions, geopend op juli 11, 2025, https://intellias.com/how-to-run-local-llms/
LocalAI: Bring ChatGPT to Your Local Machine | by Ahmet Coşkun Kızılkaya | Medium, geopend op juli 11, 2025, https://medium.com/@ahmet16ck/localai-bring-chatgpt-to-your-local-machine-50228ec4079e
Benefits of Hosting Local LLMs for Medium to Large Companies – Clavis Technologies, geopend op juli 11, 2025, https://www.clavistechnologies.com/blog/local-llms/?utm_source=rss&utm_medium=rss&utm_campaign=local-llms
The Truth About Local LLMs: When You Actually Need Them – IGNESA, geopend op juli 11, 2025, https://ignesa.com/the-truth-about-local-llms-when-you-actually-need-them/
Why local LLMs are the future of enterprise AI – Geniusee, geopend op juli 11, 2025, https://geniusee.com/single-blog/local-llm-models
LLM Security: Lamini’s Air-Gapped Solution for Government and High-Security Deployments, geopend op juli 11, 2025, https://www.lamini.ai/blog/llm-security-air-gapped
Add Enterprise-Grade RAG to Your Legal-Tech Application – EyeLevel.ai, geopend op juli 11, 2025, https://www.eyelevel.ai/legal
Local LLMs in Government – IGNESA, geopend op juli 11, 2025, https://ignesa.com/local-llms-in-government/
Top 10 LLM Tools to Run Models Locally in 2025 – AI Tools – God of Prompt, geopend op juli 11, 2025, https://www.godofprompt.ai/blog/top-10-llm-tools-to-run-models-locally-in-2025
The Good (and limitations) of using a Local CoPilot with Ollama | Oxford Protein Informatics Group, geopend op juli 11, 2025, https://www.blopig.com/blog/2025/02/the-good-and-limitations-of-using-a-local-copilot-with-ollama/
You can do WHAT with Pieces? Chat with the Pieces copilot offline with a local LLM, geopend op juli 11, 2025, https://www.youtube.com/watch?v=jtY_QAryydo
llama.cpp – Wikipedia, geopend op juli 11, 2025, https://en.wikipedia.org/wiki/Llama.cpp
GPT-Generated Unified Format – NATO, geopend op juli 11, 2025, https://nhqc3s.hq.nato.int/apps/DCRA_Report/id-29d4122b072148f5aaf4882ecc5d963c/elements/id-673b71b3cfc34434a68a55988f9a6354.html
www.databricks.com, geopend op juli 11, 2025, https://www.databricks.com/blog/ggml-gguf-file-format-vulnerabilities#:~:text=%22GGUF%20is%20a%20file%20format,GGUF%20for%20use%20in%20GGML.%22
GGUF versus GGML – IBM, geopend op juli 11, 2025, https://www.ibm.com/think/topics/gguf-versus-ggml
Llama CPP Tutorial: A Basic Guide And Program For Efficient LLM Inference And Models, geopend op juli 11, 2025, https://pwskills.com/blog/llama-cpp/
LLM quantization | LLM Inference in Production – BentoML, geopend op juli 11, 2025, https://bentoml.com/llm/getting-started/llm-quantization
How to Use llama.cpp to Run LLaMA Models Locally – Codecademy, geopend op juli 11, 2025, https://www.codecademy.com/article/llama-cpp
Fine-Tuning with Llama 2 + QLoRA – Kaggle, geopend op juli 11, 2025, https://www.kaggle.com/code/philculliton/fine-tuning-with-llama-2-qlora
Fine Tune Large Language Model (LLM) on a Custom Dataset with QLoRA | by Suman Das, geopend op juli 11, 2025, https://dassum.medium.com/fine-tune-large-language-model-llm-on-a-custom-dataset-with-qlora-fb60abdeba07
Fine-Tuning Llama2 with QLoRA — torchtune 0.4 documentation, geopend op juli 11, 2025, https://docs.pytorch.org/torchtune/0.4/tutorials/qlora_finetune.html
GPT4All – The Leading Private AI Chatbot for Local Language Models – Nomic AI, geopend op juli 11, 2025, https://www.nomic.ai/gpt4all
Home · nomic-ai/gpt4all Wiki – GitHub, geopend op juli 11, 2025, https://github.com/nomic-ai/gpt4all/wiki/Home/20c4c45398b313089e38ea916503de28dd8dbe93
ollama/ollama: Get up and running with Llama 3.3 … – GitHub, geopend op juli 11, 2025, https://github.com/ollama/ollama
LostRuins/koboldcpp: Run GGUF models easily with a … – GitHub, geopend op juli 11, 2025, https://github.com/LostRuins/koboldcpp
KoboldCpp on Novita AI: Seamless AI-Powered Content Creation, geopend op juli 11, 2025, https://novita.ai/templates/koboldcpp-on-novita-ai
How to Run LLMs with LM Studio? – GPU Mart, geopend op juli 11, 2025, https://www.gpu-mart.com/blog/run-llms-with-lm-studio
ycros/koboldcpp: A simple one-file way to run various GGML models with KoboldAI’s UI – GitHub, geopend op juli 11, 2025, https://github.com/ycros/koboldcpp
Ollama, geopend op juli 11, 2025, https://ollama.com/
What is Ollama? Features and Getting Started – Collabnix, geopend op juli 11, 2025, https://collabnix.com/what-is-ollama-features-and-getting-started/
What is Ollama: Running Large Language Models Locally | by Tahir | Medium, geopend op juli 11, 2025, https://medium.com/@tahirbalarabe2/what-is-ollama-running-large-language-models-locally-e917ca40defe
Ollama ROCm for AMD GPUs – Support – OpenMandriva forum, geopend op juli 11, 2025, https://forum.openmandriva.org/t/ollama-rocm-for-amd-gpus/6801
Running Ollama on Ubuntu with an Unsupported AMD GPU: A Performance Guide, geopend op juli 11, 2025, https://www.conroyp.com/articles/running-ollama-ubuntu-unsupported-amd-gpu-performance-guide
Open WebUI: Home, geopend op juli 11, 2025, https://docs.openwebui.com/
open-webui/open-webui: User-friendly AI Interface (Supports Ollama, OpenAI API, …) – GitHub, geopend op juli 11, 2025, https://github.com/open-webui/open-webui
What is LM Studio? Features, Pricing, and Use Cases – Walturn, geopend op juli 11, 2025, https://www.walturn.com/insights/what-is-lm-studio-features-pricing-and-use-cases
LM Studio: A Comprehensive Guide to Experimenting with Large Language Models Locally, geopend op juli 11, 2025, https://www.handsonarchitect.com/2024/10/lm-studio-comprehensive-guide-to.html
About LM Studio | LM Studio Docs, geopend op juli 11, 2025, https://lmstudio.ai/docs
User, Power User, or Developer | LM Studio Docs, geopend op juli 11, 2025, https://lmstudio.ai/docs/modes
LM Studio – Discover, download, and run local LLMs, geopend op juli 11, 2025, https://lmstudio.ai/
running local LLM for the first time : r/LocalLLaMA – Reddit, geopend op juli 11, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1lwafqm/running_local_llm_for_the_first_time/
lmstudio-ai/lms: LM Studio CLI – GitHub, geopend op juli 11, 2025, https://github.com/lmstudio-ai/lms
NomicAI gpt4all AI technology – Lablab.ai, geopend op juli 11, 2025, https://lablab.ai/tech/nomicai/gpt4all
Exploring GPT4All, the Local LLM Desktop App – Open Source For You, geopend op juli 11, 2025, https://www.opensourceforu.com/2025/06/exploring-gpt4all-the-local-llm-desktop-app/
GPT4All, geopend op juli 11, 2025, https://docs.gpt4all.io/
GPT4All – Nexus, geopend op juli 11, 2025, https://www.nexusfusion.io/en-us/detail/gpt4all/
GPT4All Enterprise – Nomic AI, geopend op juli 11, 2025, https://www.nomic.ai/gpt4all/enterprise
oobabooga/text-generation-webui: LLM UI with advanced features, easy setup, and multiple backend support. – GitHub, geopend op juli 11, 2025, https://github.com/oobabooga/text-generation-webui
Text Generation Web UI – Lablab.ai, geopend op juli 11, 2025, https://lablab.ai/tech/text-generation-webui
Training Your Own LoRAs | text-generation-webui – GitHub Pages, geopend op juli 11, 2025, https://tfwol.github.io/text-generation-webui/Training-LoRAs.html
Text-Generation-WebUI | Akash Network – Your Guide to Decentralized Cloud, geopend op juli 11, 2025, https://akash.network/docs/guides/machine-learning/text-generation-ui/
oobabooga/text-generation-webui-extensions – GitHub, geopend op juli 11, 2025, https://github.com/oobabooga/text-generation-webui-extensions
dustynv/text-generation-webui – Docker Image, geopend op juli 11, 2025, https://hub.docker.com/r/dustynv/text-generation-webui
Jan.ai, geopend op juli 11, 2025, https://jan.ai/
Jan is a ChatGPT alternative that runs 100% offline on your desktop and (soon) on mobile. Our goal is to make it easy for anyone, with or without coding skills, to download and use AI models with full control and privacy, geopend op juli 11, 2025, https://jan.ai/docs
LocalAI, geopend op juli 11, 2025, https://localai.io/
What is LocalAI? Docs, Demo and How to Deploy – Shakudo, geopend op juli 11, 2025, https://www.shakudo.io/integrations/localai
LocalAI/docs/content/docs/advanced/advanced-usage.md at master · mudler/LocalAI – GitHub, geopend op juli 11, 2025, https://github.com/mudler/LocalAI/blob/master/docs/content/docs/advanced/advanced-usage.md
Home · LostRuins/koboldcpp Wiki – GitHub, geopend op juli 11, 2025, https://github.com/LostRuins/koboldcpp/wiki
koboldai/koboldcpp – Docker Image, geopend op juli 11, 2025, https://hub.docker.com/r/koboldai/koboldcpp
LLMstudio launch – TensorOps, geopend op juli 11, 2025, https://www.tensorops.ai/llmstudiolaunch
TensorOpsAI/LLMstudio: Framework to bring LLM … – GitHub, geopend op juli 11, 2025, https://github.com/TensorOpsAI/LLMstudio
Local AI, geopend op juli 11, 2025, https://www.localai.com/
Faraday.dev | Tool Information & Alternatives | Foundr.AI, geopend op juli 11, 2025, https://foundr.ai/product/faraday-dev
[IMPORTANT] Faraday is Rebranding to Backyard AI : r/faraday_dot_dev – Reddit, geopend op juli 11, 2025, https://www.reddit.com/r/faraday_dot_dev/comments/1cr2gyl/important_faraday_is_rebranding_to_backyard_ai/
Predict customer behavior the speedy way – Faraday, geopend op juli 11, 2025, https://faraday.ai/
Faraday Security – Protect your business, scale your security., geopend op juli 11, 2025, https://faradaysec.com/
text-generation-webui 3.6: Notebook tab for writers with autosaving, new dedicated Character tab for creating and editing characters, major web search improvements, UI polish, several optimizations : r/Oobabooga – Reddit, geopend op juli 11, 2025, https://www.reddit.com/r/Oobabooga/comments/1lez30v/textgenerationwebui_36_notebook_tab_for_writers/
Text Generation Web UI – Qwen – Read the Docs, geopend op juli 11, 2025, https://qwen.readthedocs.io/en/v2.0/web_ui/text_generation_webui.html
How to Download and Use Ollama to Run LLMs Locally – Apidog, geopend op juli 11, 2025, https://apidog.com/blog/how-to-download-and-use-ollama/
A Comprehensive Guide to Ollama Local Installation – Collabnix, geopend op juli 11, 2025, https://collabnix.com/a-comprehensive-guide-to-ollama-local-installation/
Ollama Docker image, geopend op juli 11, 2025, https://hub.docker.com/r/ollama/ollama
Setting Up Ollama With Docker [With NVIDIA GPU] – It’s FOSS, geopend op juli 11, 2025, https://itsfoss.com/ollama-docker/
How to Install and Run Ollama with Docker: A Beginner’s Guide – Collabnix, geopend op juli 11, 2025, https://collabnix.com/getting-started-with-ollama-and-docker/
How to Install LM Studio on macOS: A Quick Guide, geopend op juli 11, 2025, https://www.metriccoders.com/post/how-to-install-lm-studio-on-macos-a-quick-guide
Download LM Studio – Mac, Linux, Windows, geopend op juli 11, 2025, https://lmstudio.ai/download?os=mac
Self-hosted no-Docker AI: LM Studio & AnythingLLM setup | BikeGremlin I/O, geopend op juli 11, 2025, https://io.bikegremlin.com/37912/self-hosted-no-docker-ai-lm-studio-anythingllm-setup/
How To Install TextGen WebUI and Use ANY MODEL Locally! – GPU Mart, geopend op juli 11, 2025, https://www.gpu-mart.com/blog/how-to-install-textgen-webui
Get started with LM Studio | LM Studio Docs, geopend op juli 11, 2025, https://lmstudio.ai/docs/basics
Ollama GPU Support – Reddit, geopend op juli 11, 2025, https://www.reddit.com/r/ollama/comments/1b35im0/ollama_gpu_support/
LM Studio 0.3.14: Multi-GPU Controls 🎛️, geopend op juli 11, 2025, https://lmstudio.ai/blog/lmstudio-v0.3.14
LM Studio 0.3.15: RTX 50-series GPUs and improved tool use in the API, geopend op juli 11, 2025, https://lmstudio.ai/blog/lmstudio-v0.3.15
GPU Offload Max on Apple Metal GPUs Results in Garbage Output · Issue #543 – GitHub, geopend op juli 11, 2025, https://github.com/lmstudio-ai/lmstudio-bug-tracker/issues/543
How to Use Ollama (Complete Ollama Cheatsheet) – Apidog, geopend op juli 11, 2025, https://apidog.com/blog/how-to-use-ollama/
Fine-tuning Large Language Model (LLM) on a Custom Dataset with QLoRA | MLExpert, geopend op juli 11, 2025, https://www.mlexpert.io/blog/fine-tuning-llm-on-custom-dataset-with-qlora
Building a Local RAG-Based Chatbot Using ChromaDB, LangChain, and Streamlit and Ollama | by WS | Medium, geopend op juli 11, 2025, https://medium.com/@Shamimw/building-a-local-rag-based-chatbot-using-chromadb-langchain-and-streamlit-and-ollama-9410559c8a4d
How to Implement RAG with ChromaDB and Ollama: A Python Guide for Beginners | by Arun Patidar | Medium, geopend op juli 11, 2025, https://medium.com/@arunpatidar26/rag-chromadb-ollama-python-guide-for-beginners-30857499d0a0
jan-gerritsen/local_rag: Python project that uses ChromaDB and Ollama to generate answers based on documents. Only uses open source products, and it meant to run locally on your computer. – GitHub, geopend op juli 11, 2025, https://github.com/jan-gerritsen/local_rag
5 Minute RAG with Qdrant and DeepSeek, geopend op juli 11, 2025, https://qdrant.tech/documentation/rag-deepseek/
How to train your dra… model. : r/Oobabooga – Reddit, geopend op juli 11, 2025, https://www.reddit.com/r/Oobabooga/comments/19480dr/how_to_train_your_dra_model/
I need a step-by-step instructions on training based on my own raw text. · Issue #4853 · oobabooga/text-generation-webui – GitHub, geopend op juli 11, 2025, https://github.com/oobabooga/text-generation-webui/issues/4853
Configuring Ollama and Continue VS Code Extension for Local Coding Assistant, geopend op juli 11, 2025, https://dev.to/manjushsh/configuring-ollama-and-continue-vs-code-extension-for-local-coding-assistant-48li
Create your own and custom Copilot in VSCode with Ollama and CodeGPT | by Daniel Avila, geopend op juli 11, 2025, https://blog.codegpt.co/create-your-own-and-custom-copilot-in-vscode-with-ollama-and-codegpt-736277a60298
Setting Up Ollama with Visual Studio Code: A Complete Integration Guide – 2am.tech, geopend op juli 11, 2025, https://www.2am.tech/blog/integrate-ollama-with-visual-studio-code-for-ai-coding-assistance
Run AI Models Offline Locally — Free Copilot in VS Code! | Free Cursor Alternative, geopend op juli 11, 2025, https://www.youtube.com/watch?v=9KUYvgFxEG8
JetBrains AI Assistant – IntelliJ IDEs Plugin | Marketplace, geopend op juli 11, 2025, https://plugins.jetbrains.com/plugin/22282-jetbrains-ai-assistant
Models | AI Assistant Documentation – JetBrains, geopend op juli 11, 2025, https://www.jetbrains.com/help/ai-assistant/settings-reference-models.html
Running DeepSeek inside IntelliJ for Maximum Productivity – Maryam Alhuthayfi, geopend op juli 11, 2025, https://www.mal7othify.com/post/deepseek-in-ide/
How to Build AI Agents with Local LLMs and MCP Architectures | by Sujithra Kathiravan, geopend op juli 11, 2025, https://sujithra-kathiravan.medium.com/how-to-build-ai-agents-with-local-llms-and-mcp-architectures-b86fc6ce12c0
Building Local AI Agents: A Practical Guide to Frameworks and Deployment, geopend op juli 11, 2025, https://dev.to/sina14/building-local-ai-agents-a-practical-guide-to-frameworks-and-deployment-4hi1
AnythingLLM | The all-in-one AI application for everyone, geopend op juli 11, 2025, https://anythingllm.com/
UI automation? LLM-based automation? You need both. – UiPath, geopend op juli 11, 2025, https://www.uipath.com/blog/automation/both-ui-automation-and-ai-based-automation
Understanding and Securing Exposed Ollama Instances | UpGuard, geopend op juli 11, 2025, https://www.upguard.com/blog/understanding-and-securing-exposed-ollama-instances