Verdieping2 juni 2026Bijgewerkt 3 juli 20268 minBeginner

Wat is Ollama? Lokale taalmodellen draaien op je eigen computer, uitgelegd

Ollama draait gratis AI-modellen zoals Llama 3.3, Mistral en Qwen lokaal op Mac, Windows of Linux. Wat het is, hoe het werkt, wanneer het zin heeft.

doorCirsten Kot · Oprichter & hoofdredacteur, Het Laatste AI Nieuws2 juni 2026

In één oogopslag

Ollama is gratis open-source software waarmee je AI-taalmodellen lokaal op je eigen computer draait. Eén commando om een model te downloaden, één om ermee te praten.
Geen abonnement, geen API-kosten, geen data die je computer verlaat. Ideaal voor experimenten, privacy-gevoelige content en offline werk.
Werkt op Mac (Apple Silicon én Intel), Windows en Linux. Sinds 2026 ook met AMD-GPU-acceleratie op Linux, naast NVIDIA en Apple's Neural Engine; AMD-versnelling op Windows volgt nog.
Standaard biedt Ollama een OpenAI-compatibele API — bestaande tools (Claude Code, OpenCode, Codex via `ollama launch`) werken er direct mee zonder code-aanpassingen.
Niet alles is rozengeur: een fatsoenlijk 7B-model vraagt 8GB RAM, een 70B-model 64GB+. En lokale modellen kloppen bij Sonnet 5 of GPT-5 niet, maar zijn voor veel praktijktaken meer dan goed genoeg.

ℹ️ Update 3 juli 2026: Het actuele Claude-werkpaardmodel is Sonnet 5 (uit 30 juni 2026; voorheen Sonnet 4.6).

Voor wie is dit artikel?Voor iedereen die de term “Ollama” in tutorials en developer-podcasts is tegengekomen en wil snappen wat het is, waarom mensen er enthousiast over zijn, en of het iets voor jou is. Heb je geen Mac? Geen probleem — Ollama werkt ook op Windows en Linux; de uitleg is identiek.

Op 14 oktober 2024 lanceerde een klein team in Palo Alto wat op het oog een tool voor hobbyisten was. Anderhalf jaar later draait dezelfde software op tienduizenden developer-machines, in productie bij banken die geen data naar de Verenigde Staten willen sturen, en op Linux-servers die dienen als interne AI-knooppunten. Dat is Ollama — en in dit stuk leggen we uit wat het is, hoe het werkt, en wanneer het zin heeft om het zelf te installeren.

De korte versie

Ollama is gratis software waarmee je een AI-taalmodel lokaal op je eigen computer draait. Geen abonnement, geen API-call die naar OpenAI of Anthropic gaat, geen data die je apparaat verlaat. Eén commando om een model te downloaden, één commando om ermee te chatten. Werkt op Mac, Windows en Linux.

Wat het oplost: voor wie met AI experimenteert, privacy-gevoelige content verwerkt of een productie-systeem bouwt dat niet van een externe API afhankelijk mag zijn, is een commerciële API (Claude, ChatGPT, Gemini) niet altijd de juiste keuze. Lokaal draaien wel — maar dat was traditioneel een gedoe van Python-environments, model-bestanden van tientallen gigabytes en GPU-drivers die alleen op donderdag werkten. Ollama maakt het zo simpel dat je in 15 minuten van “wat is dit?” naar “ik chat met Llama 3.3” gaat (Bron: Ollama officiële website). Je bent trouwens niet de enige die dit opzoekt: “wat is ollama” hoorde begin juli bij de snelst stijgende AI-zoekvragen in Wat Nederland aan Google vroeg over AI.

Hoe Ollama werkt

Onder de motorkap is Ollama een runtime — een schil rond llama.cpp (het open-source project dat de zware rekenwerk-laag doet) plus een aantal slimme features:

Model-management — Ollama hosts honderden open-source modellen in zijn eigen library. Met ollama pull llama3.3 download je een geoptimaliseerde versie. Geen Hugging Face-tokens, geen handmatige conversie naar GGUF, geen quantisatie-keuzes die je niet snapt.
Hardware-detectie — bij start kijkt Ollama naar je systeem (Apple Silicon Neural Engine, NVIDIA-GPU, AMD-GPU op Linux, of CPU-fallback) en routeert het werk naar de snelste optie (Bron: Ollama blog over AMD-ondersteuning).
OpenAI-compatibele API — Ollama draait een lokale server op localhost:11434 die de OpenAI Chat Completions-API nabootst. Bestaande tooling die met OpenAI praat (LangChain, LlamaIndex, Cursor, custom code) werkt zonder aanpassing met Ollama als backend — alleen de URL hoef je te veranderen.
ollama launch — sinds begin 2026 een commando dat Claude Code, OpenCode of Codex direct lokaal of met cloud-modellen draait. Eén commando, en je hebt een coding-assistent.

Beginner-tip:“Lokaal draaien” betekent dat het model letterlijk op je harde schijf staat en op je eigen processor of grafische kaart rekent. Internet is alleen nodig voor de eerste download. Vraag of antwoord verlaten je apparaat nooit. Voor wie met persoonsgegevens of vertrouwelijke documenten werkt, is dat een groot verschil met cloud-API’s.

Installeren in vijf minuten

Mac of Windows: download de installer op ollama.com/download en draai ‘m. Open daarna een terminal en typ:

ollama run llama3.3

De eerste keer downloadt Ollama het model (Llama 3.3 70B is ~40 GB, of pak llama3.2:3b voor een 2 GB-versie die ook op een mid-range laptop werkt). Daarna kun je direct in je terminal chatten.

Linux: één regel uit hun docs:

curl -fsSL https://ollama.com/install.sh | sh

Daarna hetzelfde ollama run-patroon (Bron: Ollama installatie-guide).

Welke hardware heb je nodig?

Ruwe vuistregels voor 2026, gebaseerd op model-grootte (parameters):

Modelgrootte	Minimaal RAM	Voorbeeld	Gebruik
1–3B	4–8 GB	Llama 3.2 3B, Phi-4 mini	Snelle Q&A, samenvattingen
7–8B	8–16 GB	Llama 3.1 8B, Mistral 7B	Algemene tekst, coding
13–34B	24–48 GB	Qwen 3 32B, DeepSeek-Coder	Sterke reasoning, complexere code
70B	64 GB+ of GPU	Llama 3.3 70B	Productie-niveau, vergelijkbaar met GPT-4-level
100B+	Datacenter	DeepSeek-V3, gpt-oss	Onderzoek of high-end servers

Een MacBook Air M3 met 24 GB RAM draait comfortabel modellen tot ~30B parameters. Een MacBook Pro M4 Max met 128 GB draait Llama 3.3 70B vlot. Voor wie geen Apple Silicon heeft maar wel een moderne NVIDIA-GPU (RTX 4090, 4080) of een AMD-GPU op Linux: hetzelfde verhaal — VRAM is de bepalende factor (AMD-GPU-versnelling op Windows is er begin 2026 nog niet) (Bron: Ollama AMD-ondersteuning).

Gevorderden:Quantisatie (Q4, Q5, Q6, Q8) bepaalt hoeveel het model is gecomprimeerd. Q4 is standaard in Ollama — passend voor de meeste hardware met minimaal kwaliteitsverlies. Voor productie-werk waar elke nuance telt, kies Q6 of Q8; voor experimenten op een krappe machine, Q3. De community-builds op ollama.com/library tonen meestal Q4 als default omdat dat de beste balans is tussen RAM-gebruik en output-kwaliteit (Bron: Ollama model library).

Wanneer kies je Ollama, wanneer een API?

Ollama (lokaal) is sterker voor:

Privacy-gevoelige content — medische data, juridische documenten, persoonsgegevens onder de AVG. Niets verlaat je apparaat. Voor het bredere plaatje van AI en privacy in NL: hoe houd je AI menselijk gaat dieper op deze vraag in.
Hoge volumes met simpele taken — als je 100.000 keer per dag een korte samenvatting nodig hebt, scheelt lokaal draaien duizenden euro’s per maand.
Offline werk — vliegtuig, reis zonder bereikbaar internet, of veilige enclaves zonder externe verbindingen.
Experimenteren — geen API-kosten terwijl je prompt-engineering of fine-tuning oefent.

Cloud-API (Claude, ChatGPT, Gemini) is sterker voor:

Topkwaliteit — Claude Sonnet 5 en GPT-5 leveren op complexe taken (lange juridische redenering, nuance in Nederlandse business-context, multi-step coding) in 2026 nog steeds duidelijk betere antwoorden dan welk lokaal model dan ook.
Geen hardware-investering — voor incidenteel gebruik is een API gewoon makkelijker dan een laptop met 64GB RAM kopen.
Zware multi-step agents — onze tutorial AI-agent bouwen in een weekend leunt op Claude omdat de redactionele oordeel-stap kwaliteit vraagt die lokale modellen nog niet leveren.

In de praktijk gebruiken veel builders een hybride aanpak: Ollama lokaal voor 80% van de routine-taken, een API voor de zware 20%.

Waar dit naartoe gaat

Twee trends domineren in 2026. Eén: modellen worden kleiner én beter. Een 7B-model van vandaag presteert op veel benchmarks vergelijkbaar met een 70B-model van twee jaar geleden — en sinds juli 2026 past zelfs een 27B-model in 3,9 GB, klein genoeg voor een telefoon. Dat betekent dat een groeiend deel van het werk verschuift van cloud-API’s naar lokaal — en die verschuiving stopt niet bij je eigen computer. Tools als Transformers.js en WebLLM maken het inmiddels ook mogelijk om ML-modellen direct in de browsertab te draaien, zonder backend of server. Twee: integratie wordt onzichtbaar. Met ollama launch start je een coding-assistent in één commando; tools zoals Claude Code accepteren Ollama als drop-in backend. Als je ook wilt dat AI-zoekmachines en Google jouw eigen site correct begrijpen, lees dan JSON-LD: de onzichtbare taal die bepaalt of AI-zoekmachines jouw website begrijpen — dezelfde logica van “geef structuur mee” geldt voor je modellen én voor je content. Voor een vergelijking van AI-coding-assistants: de beste AI-coding-assistants 2026 zet ook lokale opties naast cloud-tools.

Voor wie nu wil starten: onze stap-voor-stap Mac-tutorial met Ollama loopt je in een uur door installatie, model-keuze en je eerste lokale chat. Of bekijk Ollama in de bredere context van Apple Silicon en NPU’s, waar de hardware-kant zit waarop Ollama leunt.

De complete gids voor lokale AI — verder lezen

Dit artikel is je startpunt voor AI op je eigen machine. Wil je dieper op één onderdeel? Dit zijn de stukken die er direct op aansluiten.

Zelf installeren en draaien

Een AI-model draaien op je eigen Mac: complete gids met Ollama — stap voor stap, van installatie tot je eerste lokale chat.
Ollama op Windows: lokale AI draaien op je pc — installatie zonder WSL, plus de GPU-realiteit voor NVIDIA en AMD.

Welke modellen kies je

De staat van open-source AI in 2026: Llama, Mistral, DeepSeek en meer — welke open modellen er zijn en hoe ze zich tot elkaar verhouden.
MiniMax M3: open-weights frontier-model met 1M context — een krachtig open model van dichtbij bekeken.
Gemma 4 12B: Google’s gratis model op je eigen laptop — multimodaal en compact genoeg voor 16GB werkgeheugen.

De hardware eronder

Wat is een NPU en waarom zit het in elke AI-laptop? — de chips waarop lokale AI steunt.
Wat gebeurt er als je een model iets vraagt? AI-inferentie uitgelegd — wat er rekenkundig gebeurt bij elk antwoord, en waarom hardware ertoe doet.

Deel dit artikel

Volg ons in Google

Veelgestelde vragen

Wat is Ollama precies?

Ollama is gratis, open-source software waarmee je grote taalmodellen (LLM's) lokaal op je eigen computer draait — zonder API, zonder cloud, zonder dat je data je apparaat verlaat. Het verzorgt het downloaden van modellen, optimalisatie voor jouw hardware (Apple Silicon, NVIDIA-GPU, AMD-GPU, of CPU), en biedt een eenvoudige terminal- én OpenAI-compatibele API om met de modellen te communiceren.

Hoe installeer ik Ollama op mijn computer?

Op Mac en Windows: download de installer op ollama.com en draai 'm — dat is alles. Op Linux: één regel curl-commando uit hun docs. Na installatie open je een terminal en typ je 'ollama run llama3.3' om het Llama 3.3-model te downloaden en een chat te starten. Eerste download duurt 10–30 minuten afhankelijk van je internetsnelheid; daarna draait alles lokaal en offline.

Is Ollama gratis?

Ja, volledig gratis en open source. De software zelf kost niets, de modellen die je via Ollama downloadt zijn ook gratis (Llama, Mistral, Qwen, Gemma, DeepSeek, gpt-oss en honderden anderen). Wat je wel investeert is hardware: een modern model draait vlot op een laptop met 16GB+ RAM, voor grotere modellen heb je 32GB of meer nodig — of een dedicated GPU.

Welke modellen werken het beste met Ollama?

In 2026 zijn de populairste keuzes Llama 3.3 70B (sterk algemeen), Qwen 3 (sterk in code en redenering), Mistral Small (lichtgewicht maar capabel), DeepSeek-R1 (sterk in redenering), en Gemma 3 voor wie iets compacts wil. Voor een laptop met 16GB RAM: kies een 7B- of 8B-model. Voor 32GB+ kun je 13B–34B-modellen draaien. Een 70B-model vraagt 64GB+ of een GPU met 48GB VRAM.

Kan ik Ollama gebruiken in plaats van Claude of ChatGPT?

Voor veel taken: ja. Voor de allerzwaarste taken — complexe redenering, lange context, nuance in Nederlands — zijn Claude Sonnet 5 en GPT-5 in 2026 nog steeds beter dan welk lokaal model dan ook. Maar voor coding-tasks, samenvattingen, eenvoudige Q&A, prompt-experimenten en alles wat privacy-gevoelig is, kun je met Ollama prima uit de voeten. Veel builders gebruiken het hybride: Ollama lokaal voor het meeste werk, Claude API voor de zware taken.

Ollama officiële websiteollama.com
Ollama blog over AMD-ondersteuningollama.com
Ollama model libraryollama.com
llama.cpp projectgithub.com
Mac-tutorial: lokale LLM met Ollama draaienaiplatformmkb.nl

De korte versie

Hoe Ollama werkt

Installeren in vijf minuten

Welke hardware heb je nodig?

Wanneer kies je Ollama, wanneer een API?

Waar dit naartoe gaat

De complete gids voor lokale AI — verder lezen

Veelgestelde vragen

Lees verder

De staat van open-source AI in 2026: Llama, Mistral, DeepSeek en meer

Hoe werkt een taalmodel van binnen? De bouwblokken van ChatGPT en Claude uitgelegd

Open AI-modellen in 2026: waarom bedrijven overstappen van ChatGPT

Gemma 4 12B: Google's gratis AI-model draait op je eigen laptop