Verdieping 8 min

Wat is Ollama? Lokale taalmodellen draaien op je eigen computer, uitgelegd

Ollama draait gratis AI-modellen zoals Llama 3.3, Mistral en Qwen lokaal op Mac, Windows of Linux. Wat het is, hoe het werkt, wanneer het zin heeft.

Miniatuur diorama-illustratie bij artikel 'Wat is Ollama? Lokale taalmodellen draaien op je eigen computer, uitgelegd'

Voor wie is dit artikel?Voor iedereen die de term “Ollama” in tutorials en developer-podcasts is tegengekomen en wil snappen wat het is, waarom mensen er enthousiast over zijn, en of het iets voor jou is. Heb je geen Mac? Geen probleem — Ollama werkt ook op Windows en Linux; de uitleg is identiek.

Op 14 oktober 2024 lanceerde een klein team in Palo Alto wat op het oog een tool voor hobbyisten was. Anderhalf jaar later draait dezelfde software op tienduizenden developer-machines, in productie bij banken die geen data naar de Verenigde Staten willen sturen, en op Linux-servers die dienen als interne AI-knooppunten. Dat is Ollama — en in dit stuk leggen we uit wat het is, hoe het werkt, en wanneer het zin heeft om het zelf te installeren.

De korte versie

Ollama is gratis software waarmee je een AI-taalmodel lokaal op je eigen computer draait. Geen abonnement, geen API-call die naar OpenAI of Anthropic gaat, geen data die je apparaat verlaat. Eén commando om een model te downloaden, één commando om ermee te chatten. Werkt op Mac, Windows en Linux.

Wat het oplost: voor wie met AI experimenteert, privacy-gevoelige content verwerkt of een productie-systeem bouwt dat niet van een externe API afhankelijk mag zijn, is een commerciële API (Claude, ChatGPT, Gemini) niet altijd de juiste keuze. Lokaal draaien wel — maar dat was traditioneel een gedoe van Python-environments, model-bestanden van tientallen gigabytes en GPU-drivers die alleen op donderdag werkten. Ollama maakt het zo simpel dat je in 15 minuten van “wat is dit?” naar “ik chat met Llama 3.3” gaat (Bron: Ollama officiële website).

Hoe Ollama werkt

Onder de motorkap is Ollama een runtime — een schil rond llama.cpp (het open-source project dat de zware rekenwerk-laag doet) plus een aantal slimme features:

  1. Model-management — Ollama hosts honderden open-source modellen in zijn eigen library. Met ollama pull llama3.3 download je een geoptimaliseerde versie. Geen Hugging Face-tokens, geen handmatige conversie naar GGUF, geen quantisatie-keuzes die je niet snapt.
  2. Hardware-detectie — bij start kijkt Ollama naar je systeem (Apple Silicon Neural Engine, NVIDIA-GPU, AMD-GPU op Linux, of CPU-fallback) en routeert het werk naar de snelste optie (Bron: Ollama blog over AMD-ondersteuning).
  3. OpenAI-compatibele API — Ollama draait een lokale server op localhost:11434 die de OpenAI Chat Completions-API nabootst. Bestaande tooling die met OpenAI praat (LangChain, LlamaIndex, Cursor, custom code) werkt zonder aanpassing met Ollama als backend — alleen de URL hoef je te veranderen.
  4. ollama launch — sinds begin 2026 een commando dat Claude Code, OpenCode of Codex direct lokaal of met cloud-modellen draait. Eén commando, en je hebt een coding-assistent.

Beginner-tip:“Lokaal draaien” betekent dat het model letterlijk op je harde schijf staat en op je eigen processor of grafische kaart rekent. Internet is alleen nodig voor de eerste download. Vraag of antwoord verlaten je apparaat nooit. Voor wie met persoonsgegevens of vertrouwelijke documenten werkt, is dat een groot verschil met cloud-API’s.

Installeren in vijf minuten

Mac of Windows: download de installer op ollama.com/download en draai ‘m. Open daarna een terminal en typ:

ollama run llama3.3

De eerste keer downloadt Ollama het model (Llama 3.3 70B is ~40 GB, of pak llama3.2:3b voor een 2 GB-versie die ook op een mid-range laptop werkt). Daarna kun je direct in je terminal chatten.

Linux: één regel uit hun docs:

curl -fsSL https://ollama.com/install.sh | sh

Daarna hetzelfde ollama run-patroon (Bron: Ollama installatie-guide).

Welke hardware heb je nodig?

Ruwe vuistregels voor 2026, gebaseerd op model-grootte (parameters):

ModelgrootteMinimaal RAMVoorbeeldGebruik
1–3B4–8 GBLlama 3.2 3B, Phi-4 miniSnelle Q&A, samenvattingen
7–8B8–16 GBLlama 3.1 8B, Mistral 7BAlgemene tekst, coding
13–34B24–48 GBQwen 3 32B, DeepSeek-CoderSterke reasoning, complexere code
70B64 GB+ of GPULlama 3.3 70BProductie-niveau, vergelijkbaar met GPT-4-level
100B+DatacenterDeepSeek-V3, gpt-ossOnderzoek of high-end servers

Een MacBook Air M3 met 24 GB RAM draait comfortabel modellen tot ~30B parameters. Een MacBook Pro M4 Max met 128 GB draait Llama 3.3 70B vlot. Voor wie geen Apple Silicon heeft maar wel een moderne NVIDIA-GPU (RTX 4090, 4080) of een AMD-GPU op Linux: hetzelfde verhaal — VRAM is de bepalende factor (AMD-GPU-versnelling op Windows is er begin 2026 nog niet) (Bron: Ollama AMD-ondersteuning).

Gevorderden:Quantisatie (Q4, Q5, Q6, Q8) bepaalt hoeveel het model is gecomprimeerd. Q4 is standaard in Ollama — passend voor de meeste hardware met minimaal kwaliteitsverlies. Voor productie-werk waar elke nuance telt, kies Q6 of Q8; voor experimenten op een krappe machine, Q3. De community-builds op ollama.com/library tonen meestal Q4 als default omdat dat de beste balans is tussen RAM-gebruik en output-kwaliteit (Bron: Ollama model library).

Wanneer kies je Ollama, wanneer een API?

Ollama (lokaal) is sterker voor:

  • Privacy-gevoelige content — medische data, juridische documenten, persoonsgegevens onder de AVG. Niets verlaat je apparaat. Voor het bredere plaatje van AI en privacy in NL: hoe houd je AI menselijk gaat dieper op deze vraag in.
  • Hoge volumes met simpele taken — als je 100.000 keer per dag een korte samenvatting nodig hebt, scheelt lokaal draaien duizenden euro’s per maand.
  • Offline werk — vliegtuig, reis zonder bereikbaar internet, of veilige enclaves zonder externe verbindingen.
  • Experimenteren — geen API-kosten terwijl je prompt-engineering of fine-tuning oefent.

Cloud-API (Claude, ChatGPT, Gemini) is sterker voor:

  • Topkwaliteit — Claude Sonnet 4.6 en GPT-5 leveren op complexe taken (lange juridische redenering, nuance in Nederlandse business-context, multi-step coding) in 2026 nog steeds duidelijk betere antwoorden dan welk lokaal model dan ook.
  • Geen hardware-investering — voor incidenteel gebruik is een API gewoon makkelijker dan een laptop met 64GB RAM kopen.
  • Zware multi-step agents — onze tutorial AI-agent bouwen in een weekend leunt op Claude omdat de redactionele oordeel-stap kwaliteit vraagt die lokale modellen nog niet leveren.

In de praktijk gebruiken veel builders een hybride aanpak: Ollama lokaal voor 80% van de routine-taken, een API voor de zware 20%.

Waar dit naartoe gaat

Twee trends domineren in 2026. Eén: modellen worden kleiner én beter. Een 7B-model van vandaag presteert op veel benchmarks vergelijkbaar met een 70B-model van twee jaar geleden. Dat betekent dat een groeiend deel van het werk verschuift van cloud-API’s naar lokaal. Twee: integratie wordt onzichtbaar. Met ollama launch start je een coding-assistent in één commando; tools zoals Claude Code accepteren Ollama als drop-in backend. Voor een vergelijking van AI-coding-assistants: de beste AI-coding-assistants 2026 zet ook lokale opties naast cloud-tools.

Voor wie nu wil starten: onze stap-voor-stap Mac-tutorial met Ollama loopt je in een uur door installatie, model-keuze en je eerste lokale chat. Of bekijk Ollama in de bredere context van Apple Silicon en NPU’s, waar de hardware-kant zit waarop Ollama leunt.

De complete gids voor lokale AI — verder lezen

Dit artikel is je startpunt voor AI op je eigen machine. Wil je dieper op één onderdeel? Dit zijn de stukken die er direct op aansluiten.

Zelf installeren en draaien

Welke modellen kies je

De hardware eronder

Samenvatting — de 5-minuten-versie

  • Ollama is gratis, open-source software om taalmodellen lokaal op je eigen computer te draaien.
  • Eén commando voor installatie, één voor model-download, één om te chatten. Werkt op Mac, Windows en Linux.
  • Levert een OpenAI-compatibele API zodat bestaande tools direct werken; ollama launch start coding-assistenten als Claude Code op lokale modellen.
  • Hardware-eisen: 8 GB RAM voor 7B-modellen, 64 GB+ of GPU voor 70B-modellen. Apple Silicon én AMD-GPU’s zijn vanaf 2026 ondersteund.
  • Kies Ollama voor privacy, volume of offline werk; kies Claude/GPT-5 voor topkwaliteit en zware multi-step agents. Hybride is in 2026 de standaard.

Bronnen

Veelgestelde vragen

Wat is Ollama precies?

Ollama is gratis, open-source software waarmee je grote taalmodellen (LLM's) lokaal op je eigen computer draait — zonder API, zonder cloud, zonder dat je data je apparaat verlaat. Het verzorgt het downloaden van modellen, optimalisatie voor jouw hardware (Apple Silicon, NVIDIA-GPU, AMD-GPU, of CPU), en biedt een eenvoudige terminal- én OpenAI-compatibele API om met de modellen te communiceren.

Hoe installeer ik Ollama op mijn computer?

Op Mac en Windows: download de installer op ollama.com en draai 'm — dat is alles. Op Linux: één regel curl-commando uit hun docs. Na installatie open je een terminal en typ je 'ollama run llama3.3' om het Llama 3.3-model te downloaden en een chat te starten. Eerste download duurt 10–30 minuten afhankelijk van je internetsnelheid; daarna draait alles lokaal en offline.

Is Ollama gratis?

Ja, volledig gratis en open source. De software zelf kost niets, de modellen die je via Ollama downloadt zijn ook gratis (Llama, Mistral, Qwen, Gemma, DeepSeek, gpt-oss en honderden anderen). Wat je wel investeert is hardware: een modern model draait vlot op een laptop met 16GB+ RAM, voor grotere modellen heb je 32GB of meer nodig — of een dedicated GPU.

Welke modellen werken het beste met Ollama?

In 2026 zijn de populairste keuzes Llama 3.3 70B (sterk algemeen), Qwen 3 (sterk in code en redenering), Mistral Small (lichtgewicht maar capabel), DeepSeek-R1 (sterk in redenering), en Gemma 3 voor wie iets compacts wil. Voor een laptop met 16GB RAM: kies een 7B- of 8B-model. Voor 32GB+ kun je 13B–34B-modellen draaien. Een 70B-model vraagt 64GB+ of een GPU met 48GB VRAM.

Kan ik Ollama gebruiken in plaats van Claude of ChatGPT?

Voor veel taken: ja. Voor de allerzwaarste taken — complexe redenering, lange context, nuance in Nederlands — zijn Claude Sonnet 4.6 en GPT-5 in 2026 nog steeds beter dan welk lokaal model dan ook. Maar voor coding-tasks, samenvattingen, eenvoudige Q&A, prompt-experimenten en alles wat privacy-gevoelig is, kun je met Ollama prima uit de voeten. Veel builders gebruiken het hybride: Ollama lokaal voor het meeste werk, Claude API voor de zware taken.

Bronnen

Waar deze informatie vandaan komt.