Voor wie is dit artikel?Voor iedereen die de term “Ollama” in tutorials en developer-podcasts is tegengekomen en wil snappen wat het is, waarom mensen er enthousiast over zijn, en of het iets voor jou is. Heb je geen Mac? Geen probleem — Ollama werkt ook op Windows en Linux; de uitleg is identiek.
Op 14 oktober 2024 lanceerde een klein team in Palo Alto wat op het oog een tool voor hobbyisten was. Anderhalf jaar later draait dezelfde software op tienduizenden developer-machines, in productie bij banken die geen data naar de Verenigde Staten willen sturen, en op Linux-servers die dienen als interne AI-knooppunten. Dat is Ollama — en in dit stuk leggen we uit wat het is, hoe het werkt, en wanneer het zin heeft om het zelf te installeren.
De korte versie
Ollama is gratis software waarmee je een AI-taalmodel lokaal op je eigen computer draait. Geen abonnement, geen API-call die naar OpenAI of Anthropic gaat, geen data die je apparaat verlaat. Eén commando om een model te downloaden, één commando om ermee te chatten. Werkt op Mac, Windows en Linux.
Wat het oplost: voor wie met AI experimenteert, privacy-gevoelige content verwerkt of een productie-systeem bouwt dat niet van een externe API afhankelijk mag zijn, is een commerciële API (Claude, ChatGPT, Gemini) niet altijd de juiste keuze. Lokaal draaien wel — maar dat was traditioneel een gedoe van Python-environments, model-bestanden van tientallen gigabytes en GPU-drivers die alleen op donderdag werkten. Ollama maakt het zo simpel dat je in 15 minuten van “wat is dit?” naar “ik chat met Llama 3.3” gaat (Bron: Ollama officiële website).
Hoe Ollama werkt
Onder de motorkap is Ollama een runtime — een schil rond llama.cpp (het open-source project dat de zware rekenwerk-laag doet) plus een aantal slimme features:
- Model-management — Ollama hosts honderden open-source modellen in zijn eigen library. Met
ollama pull llama3.3download je een geoptimaliseerde versie. Geen Hugging Face-tokens, geen handmatige conversie naar GGUF, geen quantisatie-keuzes die je niet snapt. - Hardware-detectie — bij start kijkt Ollama naar je systeem (Apple Silicon Neural Engine, NVIDIA-GPU, AMD-GPU op Linux, of CPU-fallback) en routeert het werk naar de snelste optie (Bron: Ollama blog over AMD-ondersteuning).
- OpenAI-compatibele API — Ollama draait een lokale server op
localhost:11434die de OpenAI Chat Completions-API nabootst. Bestaande tooling die met OpenAI praat (LangChain, LlamaIndex, Cursor, custom code) werkt zonder aanpassing met Ollama als backend — alleen de URL hoef je te veranderen. ollama launch— sinds begin 2026 een commando dat Claude Code, OpenCode of Codex direct lokaal of met cloud-modellen draait. Eén commando, en je hebt een coding-assistent.
Beginner-tip:“Lokaal draaien” betekent dat het model letterlijk op je harde schijf staat en op je eigen processor of grafische kaart rekent. Internet is alleen nodig voor de eerste download. Vraag of antwoord verlaten je apparaat nooit. Voor wie met persoonsgegevens of vertrouwelijke documenten werkt, is dat een groot verschil met cloud-API’s.
Installeren in vijf minuten
Mac of Windows: download de installer op ollama.com/download en draai ‘m. Open daarna een terminal en typ:
ollama run llama3.3
De eerste keer downloadt Ollama het model (Llama 3.3 70B is ~40 GB, of pak llama3.2:3b voor een 2 GB-versie die ook op een mid-range laptop werkt). Daarna kun je direct in je terminal chatten.
Linux: één regel uit hun docs:
curl -fsSL https://ollama.com/install.sh | sh
Daarna hetzelfde ollama run-patroon (Bron: Ollama installatie-guide).
Welke hardware heb je nodig?
Ruwe vuistregels voor 2026, gebaseerd op model-grootte (parameters):
| Modelgrootte | Minimaal RAM | Voorbeeld | Gebruik |
|---|---|---|---|
| 1–3B | 4–8 GB | Llama 3.2 3B, Phi-4 mini | Snelle Q&A, samenvattingen |
| 7–8B | 8–16 GB | Llama 3.1 8B, Mistral 7B | Algemene tekst, coding |
| 13–34B | 24–48 GB | Qwen 3 32B, DeepSeek-Coder | Sterke reasoning, complexere code |
| 70B | 64 GB+ of GPU | Llama 3.3 70B | Productie-niveau, vergelijkbaar met GPT-4-level |
| 100B+ | Datacenter | DeepSeek-V3, gpt-oss | Onderzoek of high-end servers |
Een MacBook Air M3 met 24 GB RAM draait comfortabel modellen tot ~30B parameters. Een MacBook Pro M4 Max met 128 GB draait Llama 3.3 70B vlot. Voor wie geen Apple Silicon heeft maar wel een moderne NVIDIA-GPU (RTX 4090, 4080) of een AMD-GPU op Linux: hetzelfde verhaal — VRAM is de bepalende factor (AMD-GPU-versnelling op Windows is er begin 2026 nog niet) (Bron: Ollama AMD-ondersteuning).
Gevorderden:Quantisatie (Q4, Q5, Q6, Q8) bepaalt hoeveel het model is gecomprimeerd. Q4 is standaard in Ollama — passend voor de meeste hardware met minimaal kwaliteitsverlies. Voor productie-werk waar elke nuance telt, kies Q6 of Q8; voor experimenten op een krappe machine, Q3. De community-builds op ollama.com/library tonen meestal Q4 als default omdat dat de beste balans is tussen RAM-gebruik en output-kwaliteit (Bron: Ollama model library).
Wanneer kies je Ollama, wanneer een API?
Ollama (lokaal) is sterker voor:
- Privacy-gevoelige content — medische data, juridische documenten, persoonsgegevens onder de AVG. Niets verlaat je apparaat. Voor het bredere plaatje van AI en privacy in NL: hoe houd je AI menselijk gaat dieper op deze vraag in.
- Hoge volumes met simpele taken — als je 100.000 keer per dag een korte samenvatting nodig hebt, scheelt lokaal draaien duizenden euro’s per maand.
- Offline werk — vliegtuig, reis zonder bereikbaar internet, of veilige enclaves zonder externe verbindingen.
- Experimenteren — geen API-kosten terwijl je prompt-engineering of fine-tuning oefent.
Cloud-API (Claude, ChatGPT, Gemini) is sterker voor:
- Topkwaliteit — Claude Sonnet 4.6 en GPT-5 leveren op complexe taken (lange juridische redenering, nuance in Nederlandse business-context, multi-step coding) in 2026 nog steeds duidelijk betere antwoorden dan welk lokaal model dan ook.
- Geen hardware-investering — voor incidenteel gebruik is een API gewoon makkelijker dan een laptop met 64GB RAM kopen.
- Zware multi-step agents — onze tutorial AI-agent bouwen in een weekend leunt op Claude omdat de redactionele oordeel-stap kwaliteit vraagt die lokale modellen nog niet leveren.
In de praktijk gebruiken veel builders een hybride aanpak: Ollama lokaal voor 80% van de routine-taken, een API voor de zware 20%.
Waar dit naartoe gaat
Twee trends domineren in 2026. Eén: modellen worden kleiner én beter. Een 7B-model van vandaag presteert op veel benchmarks vergelijkbaar met een 70B-model van twee jaar geleden. Dat betekent dat een groeiend deel van het werk verschuift van cloud-API’s naar lokaal. Twee: integratie wordt onzichtbaar. Met ollama launch start je een coding-assistent in één commando; tools zoals Claude Code accepteren Ollama als drop-in backend. Voor een vergelijking van AI-coding-assistants: de beste AI-coding-assistants 2026 zet ook lokale opties naast cloud-tools.
Voor wie nu wil starten: onze stap-voor-stap Mac-tutorial met Ollama loopt je in een uur door installatie, model-keuze en je eerste lokale chat. Of bekijk Ollama in de bredere context van Apple Silicon en NPU’s, waar de hardware-kant zit waarop Ollama leunt.
De complete gids voor lokale AI — verder lezen
Dit artikel is je startpunt voor AI op je eigen machine. Wil je dieper op één onderdeel? Dit zijn de stukken die er direct op aansluiten.
Zelf installeren en draaien
- Een AI-model draaien op je eigen Mac: complete gids met Ollama — stap voor stap, van installatie tot je eerste lokale chat.
- Ollama op Windows: lokale AI draaien op je pc — installatie zonder WSL, plus de GPU-realiteit voor NVIDIA en AMD.
Welke modellen kies je
- De staat van open-source AI in 2026: Llama, Mistral, DeepSeek en meer — welke open modellen er zijn en hoe ze zich tot elkaar verhouden.
- MiniMax M3: open-weights frontier-model met 1M context — een krachtig open model van dichtbij bekeken.
De hardware eronder
- Wat is een NPU en waarom zit het in elke AI-laptop? — de chips waarop lokale AI steunt.
- Wat gebeurt er als je een model iets vraagt? AI-inferentie uitgelegd — wat er rekenkundig gebeurt bij elk antwoord, en waarom hardware ertoe doet.
Samenvatting — de 5-minuten-versie
- Ollama is gratis, open-source software om taalmodellen lokaal op je eigen computer te draaien.
- Eén commando voor installatie, één voor model-download, één om te chatten. Werkt op Mac, Windows en Linux.
- Levert een OpenAI-compatibele API zodat bestaande tools direct werken;
ollama launchstart coding-assistenten als Claude Code op lokale modellen. - Hardware-eisen: 8 GB RAM voor 7B-modellen, 64 GB+ of GPU voor 70B-modellen. Apple Silicon én AMD-GPU’s zijn vanaf 2026 ondersteund.
- Kies Ollama voor privacy, volume of offline werk; kies Claude/GPT-5 voor topkwaliteit en zware multi-step agents. Hybride is in 2026 de standaard.
Bronnen
- Ollama officiële website — installatie, documentatie, releases
- Ollama model library — alle beschikbare modellen, met quantisatie- en grootte-info
- Ollama blog — release notes, AMD-ondersteuning,
ollama launch, integraties - llama.cpp project — de runtime onder de motorkap die zware rekenwerk-laag doet
- Onze Mac-tutorial: lokale LLM met Ollama draaien — praktisch vervolg voor wie wil installeren