Tutorials 7 min

Ollama op Windows: lokale AI draaien op je pc (complete gids)

Installeer Ollama op Windows en draai gratis AI-modellen lokaal — zonder WSL, zonder admin-rechten. Stap voor stap: installatie, eerste model, GPU.

Miniatuur diorama-illustratie bij artikel 'Ollama op Windows: lokale AI draaien op je pc (complete gids)'

Wil je AI-modellen lokaal op je Windows-pc draaien — gratis, privé en offline — dan is Ollama het kortste pad ernaartoe. Goed nieuws: het hoeft niet meer via WSL of andere omwegen. Sinds een paar versies is er een gewone Windows-app. In deze gids loop je in een kwartier van “niets” naar “ik chat met een lokaal model”, met de eerlijke kanttekeningen over hardware en GPU’s erbij.

Beginner-tip:Nog niet helemaal helder wat “lokaal draaien” inhoudt of waarom je het zou willen? Lees eerst de uitlegWat is Ollama? Lokale taalmodellen draaien op je eigen computer. Daar staat het waarom; hier staat het hoe, specifiek voor Windows.

Wat je nodig hebt

De eisen zijn bescheiden:

  • Windows 10 of 11 (64-bit).
  • RAM is de bepalende factor. Reken op 8 GB voor een 7-8B-model, 16 GB voor comfortabel gebruik, en 32 GB of meer voor grotere modellen.
  • Een GPU is niet verplicht. Zonder snelle grafische kaart draait het op je processor (CPU) — dat werkt prima voor kleinere modellen, alleen langzamer.
  • Schijfruimte: een klein model is 2-5 GB, grote modellen lopen op tot tientallen GB’s.

Gevorderden:De grootte van een model wordt aangeduid in parameters (3B, 8B, 70B). Een ruwe vuistregel: het aantal GB RAM dat je nodig hebt ligt rond het aantal miljarden parameters bij Q4-quantisatie. Een 8B-model vraagt dus ~8 GB, een 70B-model ~64 GB. Voor de volledige hardware-tabel en uitleg over quantisatie: zie deOllama-uitleg.

Stap 1 — Ollama installeren

Geen WSL, geen administrator-rechten nodig:

  1. Ga naar ollama.com/download en kies Windows.
  2. Download en draai OllamaSetup.exe. De installer plaatst Ollama in je gebruikersaccount — je hebt dus geen admin-rechten nodig.
  3. Na installatie draait Ollama als achtergronddienst (je ziet het icoon in je systeemvak, rechtsonder).

Dat is alles. Geen Python-omgeving, geen handmatige drivers, geen WSL2 (Bron: Ollama Windows-documentatie).

Stap 2 — Je eerste model draaien

Open PowerShell of Command Prompt (Windows-toets, typ powershell, Enter) en draai:

ollama run llama3.2

De eerste keer downloadt Ollama het model. llama3.2 (3B) is ~2 GB en werkt ook op een mid-range laptop — een goede start. Zodra de download klaar is, kun je direct typen en krijg je antwoord, volledig lokaal.

Wil je een groter, sterker model en heb je het geheugen ervoor? Probeer dan:

ollama run llama3.3

Stoppen met chatten doe je met /bye. Een lijst van je gedownloade modellen krijg je met ollama list.

Beginner-tip:Begin klein. Een 3B-model dat soepel draait, leert je meer over hoe lokale AI voelt dan een 70B-model dat je machine laat zwoegen. Bevalt het, schaal dan op. Welke modellen de moeite waard zijn, lees je inDe staat van open-source AI in 2026.

Stap 3 — GPU-versnelling (en de AMD-realiteit)

Met alleen een CPU werkt Ollama prima voor kleinere modellen, maar een GPU maakt het flink sneller. Hier zit het belangrijkste Windows-specifieke verschil:

  • NVIDIA — werkt automatisch. Heb je een NVIDIA-kaart met compute capability 5.0 of hoger en driver 536 of nieuwer, dan gebruikt Ollama die meteen via CUDA. Je hoeft de CUDA-toolkit niet apart te installeren; Ollama brengt mee wat het nodig heeft (Bron: Ollama GPU-documentatie).
  • AMD — nog niet op Windows. Dit is de eerlijke kanttekening: AMD-GPU-versnelling in Ollama draait begin 2026 alleen op Linux (via ROCm). Op Windows is het nog niet beschikbaar — Vulkan- en DirectML-ondersteuning staan op de roadmap, maar zijn nog niet uitgebracht. Heb je een AMD-kaart, dan draait Ollama op je CPU, of je gebruikt WSL2 met ROCm (technisch en omslachtig).

Gevorderden:Wil je controleren of je GPU echt gebruikt wordt? Draai een model en kijk in Taakbeheer naar het GPU-gebruik, of gebruikollama psom te zien of een model op GPU of CPU geladen is. Blijft het op CPU terwijl je een NVIDIA-kaart hebt, controleer dan eerst je driverversie.

Stap 4 — Ollama koppelen aan andere tools

Ollama draait een lokale server op localhost:11434 met een OpenAI-compatibele API. Dat betekent: software die normaal met ChatGPT’s API praat, kun je vaak met één URL-wijziging naar je lokale model laten wijzen — van code-editors tot eigen scripts. Zo gebruik je gratis, lokale modellen in tools die je al kent. Voor wie code schrijft: onze vergelijking van de beste AI-coding-assistants van 2026 laat zien welke daarvan met een lokale backend overweg kunnen.

Op een Mac in plaats van Windows?

Werk je (ook) op een Mac? Het principe is identiek, maar de stappen en hardware-tips verschillen — vooral omdat Apple Silicon de modellen op de Neural Engine versnelt. Daarvoor hebben we een aparte gids: Een AI-model draaien op je eigen Mac. En wil je begrijpen waaróm die chips zo’n verschil maken, lees dan Wat is een NPU en waarom zit het in elke AI-laptop?.

Samenvatting — de 5-minuten-versie

  • Ollama draait native op Windows (sinds v0.3) — geen WSL2 of admin-rechten nodig.
  • Installeren: OllamaSetup.exe van ollama.com, daarna ollama run llama3.2 in PowerShell.
  • NVIDIA-GPU wordt automatisch gebruikt (CUDA ingebouwd, driver 536+); AMD-GPU-versnelling is op Windows begin 2026 nog niet beschikbaar.
  • Hardware: 8 GB RAM voor 7-8B-modellen, meer voor grotere; CPU-only werkt, maar trager.
  • Alles draait lokaal, gratis en offline — geen data die je pc verlaat.

Bronnen

Veelgestelde vragen

Heb ik WSL nodig om Ollama op Windows te draaien?

Nee. Sinds Ollama 0.3 is er een native Windows-applicatie; WSL2 is niet meer nodig. Je downloadt de installer (OllamaSetup.exe) van ollama.com, draait 'm — dat kan zonder administrator-rechten, het installeert in je gebruikersaccount — en daarna werkt alles vanuit een gewone terminal (PowerShell of Command Prompt). WSL2 heb je alleen nog nodig in één specifiek geval: als je een AMD-GPU wilt gebruiken voor versnelling, want die route loopt op Windows nog via WSL2 met ROCm.

Welke Windows-versie en hardware heb ik nodig?

Windows 10 of 11 (64-bit). Voor de modellen geldt: reken op minimaal 8 GB RAM voor een 7-8B-model, 16 GB voor comfortabel gebruik, en 32 GB of meer voor grotere modellen. Een GPU is niet verplicht — op alleen een CPU werkt het ook, maar trager. Heb je een moderne NVIDIA-kaart, dan wordt die automatisch ingezet en gaat het een stuk sneller.

Werkt mijn NVIDIA- of AMD-GPU met Ollama op Windows?

NVIDIA: ja, automatisch. Kaarten met compute capability 5.0 of hoger gebruiken CUDA voor versnelling; je hoeft de CUDA-toolkit niet apart te installeren want Ollama brengt wat het nodig heeft zelf mee. Zorg wel voor NVIDIA-driver 536 of nieuwer. AMD: op Windows is GPU-versnelling begin 2026 nog niet beschikbaar (ROCm draait alleen op Linux; Vulkan/DirectML staat op de roadmap). AMD-gebruikers draaien Ollama daarom op de CPU, of via WSL2 met ROCm — dat laatste is technisch en omslachtig.

Is Ollama op Windows gratis?

Ja, volledig gratis en open source. De software kost niets en de modellen die je downloadt (Llama, Mistral, Qwen, Gemma, DeepSeek en honderden andere) zijn ook gratis. Het enige wat je 'investeert' is schijfruimte en RAM: een klein model is 2-5 GB, een groot model tientallen GB's. Er gaat geen enkele API-call of betaling naar OpenAI of Anthropic.

Kan ik Ollama op Windows met andere programma's verbinden?

Ja. Ollama draait een lokale server op localhost:11434 met een OpenAI-compatibele API. Tools die met de OpenAI-API praten — van code-editors tot eigen scripts — werken met Ollama als backend; meestal hoef je alleen de API-URL te wijzigen. Zo gebruik je lokale modellen in bestaande software zonder je code te herschrijven.

Bronnen

Waar deze informatie vandaan komt.

  1. Ollama — GPU-documentatieollama.readthedocs.io