AI Innovatie 12 juni 2026 7 min Gevorderd

AI in je browser, zonder server: hoe WebGPU en kleine modellen de inferentie verplaatsen

Client-side AI draait steeds vaker direct in de browsertab — zonder API-calls, zonder backend, zonder maandelijkse factuur. Een praktisch overzicht van de tooling die dit mogelijk maakt.

door Redactie · Redactieteam, Het Laatste AI Nieuws 12 juni 2026

Als je in 2024 een chatbot wilde inbouwen in een webapplicatie, had je een backend nodig. Die draaide de API-calls naar OpenAI, Anthropic of een andere aanbieder, beheerde de sleutels, schreef de logs en stuurde de resultaten terug. Drie lagen voor iets wat voelt als een simpele “geef me een antwoord”-loop.

Dat model verschuift. Niet voor alles, en niet voor iedereen morgen, maar de tooling is er: een groeiende categorie AI-taken kan nu direct in de browsertab draaien, zonder backend, zonder API-kosten, zonder data die het apparaat verlaat.

Wat maakt dit nu mogelijk?

Drie ontwikkelingen die in 2024 en 2025 samenkwamen.

WebGPU is de GPU-API die browsers pas recent écht breed ondersteunen. Chrome en Edge hadden het als eerste (versie 113), Firefox volgde in november 2025 op Windows (versie 141) en later op macOS, en Safari rolde het uit met macOS, iOS en iPadOS Tahoe 26. (Bron: web.dev) Daarvoor had je met WebGL of WebAssembly een compromis op het gebied van GPU-prestaties. WebGPU is een laag dichter bij de echte grafische driver — vergelijkbaar met hoe Vulkan of Metal dichter bij de hardware zit dan OpenGL. Voor matrixoperaties, precies wat neurale netwerken nodig hebben, maakt dat een merkbaar verschil.

ONNX Runtime Web is de JavaScript-port van Microsoft’s inferentie-runtime. Hij ondersteunt WebGPU, WebGL, WebNN en als fallback WebAssembly, en kiest automatisch de snelste beschikbare optie. (Bron: Microsoft Open Source Blog) Een gebruiker met een moderne GPU krijgt de snelle route; iemand op een oudere telefoon valt terug op WASM. Die graceful degradation is een van de redenen waarom ONNX Runtime Web de de-facto basis is geworden voor browser-gebaseerde ML-tooling.

Kleine, geoptimaliseerde modellen in ONNX-formaat. Hugging Face heeft inmiddels duizenden modellen beschikbaar die direct te laden zijn met Transformers.js — geconverteerd, gekwantiseerd en klaar voor browsergebruik. Modellen van 100–500 MB laden in seconden en draaien daarna volledig offline.

De twee toolkits die het verschil maken

Transformers.js van Hugging Face is het meest complete startpunt voor de meeste use cases. De API lijkt bewust sterk op de Python-library, zodat je bestaande pipelines kunt omzetten zonder alles opnieuw te leren. Ondersteunde taken: tekst-classificatie, samenvatting, vertaling, named entity recognition, vraag-en-antwoord, beeldclassificatie, objectdetectie, automatische spraakherkenning en meer. (Bron: Hugging Face)

Een typische initialisatie ziet er zo uit:

import { pipeline } from '@xenova/transformers';
const classifier = await pipeline('sentiment-analysis');
const result = await classifier('Dit werkt verrassend goed.');

Het model wordt de eerste keer gedownload en daarna gecached in de browser. Herlaad de pagina, en inferentie start direct — geen netwerkverzoek meer nodig.

WebLLM van MLC AI richt zich op iets ambitieuzers: volledige taalmodellen in de browser. De bibliotheek gebruikt geoptimaliseerde WebGPU-kernels via de MLC-LLM compiler en Apache TVM, en bereikt daarmee tot 80% van de native GPU-prestatie op hetzelfde apparaat — een cijfer uit het peer-reviewed onderzoek van december 2024. (Bron: arXiv) De API is OpenAI-compatibel, wat betekent dat bestaande chatbot-code met kleine aanpassingen draait op een lokaal 7B-model in de browser.

Gevorderden:WebLLM haalt die 80% met een combinatie van quantization, operator fusion en prefill-optimalisaties in de MLC-LLM compiler. Wil je benchmarken op je eigen hardware, dan heeft WebLLM een ingebouwde profiling-mode die per-operatie timings rapporteert — handig om te bepalen of het model geschikt is voor je doelgroep-hardware.

Waar de grens ligt

De beperking is modelgrootte, en die is reëel. Een 7B-model vraagt in gecomprimeerde vorm nog altijd 3–4 GB download en genoeg GPU-geheugen om de berekeningen parallel te houden. Op een moderne laptop met Apple Silicon of een recente NVIDIA-GPU is dat haalbaar; op een gemiddelde Android-telefoon of een drie jaar oude werklaptop niet.

De praktische indeling voor productiegebruik: voor NLP-taken op tekst (classificatie, extractie, korte samenvatting) zijn compacte ONNX-modellen van 50–300 MB prima. Voor spraakherkenning via Whisper-varianten is 200–400 MB realistisch. Voor volledige chatinteractie met een 7B-model heb je hardware nodig die niet iedereen in je gebruikersgroep heeft.

Dit maakt client-side AI ook iets anders dan wat Ollama doet op je eigen machine: Ollama draait op hardware die jij volledig controleert, met je bestandssysteem en volledige GPU-geheugen beschikbaar. Een browser draait op hardware van een bezoeker, met de beperkingen van de sandbox. Het zit er tussenin — en dat is soms precies de juiste plek.

Gevorderden:ONNX Runtime Web kiest automatisch de snelste execution provider, maar je kunt forceren via{ executionProviders: ['webgpu'] }of['wasm']. WebGPU wint op grotere modellen dankzij GPU-parallellisatie; WASM kan sneller zijn op kleine modellen doordat het GPU-initialisatieoverhead vermijdt. Test op je concrete model- en hardwarecombinatie voordat je de provider vastlegt.

Waarom privacy hier het echte argument is

Kosten zijn een valide argument: geen API-calls betekent geen token-factuur. Latency ook: zonder netwerkround-trip reageert een simpele classificatie in tientallen milliseconden.

Maar het sterkste argument is architectureel van aard. Als de inferentie client-side draait, verlaat de data het apparaat niet. Dat is geen privacybeleid dat morgen kan worden aangepast of een verwerkingsovereenkomst die je kunt tekenen — het is een technische eigenschap van hoe het systeem gebouwd is. Een offline vertaaltool voor vertrouwelijke contracten, een classificatiemodel dat medische notities tagt, een chatbot die juridische documenten verwerkt: voor die use cases geeft client-side AI een garantie die een cloud-API structureel niet kan geven.

In een bredere context: een inferentie die plaatsvindt op hardware die de gebruiker al bezit en die al betaald is, verbruikt geen datacenter-capaciteit. Dat is ook relevant als je weet hoe energie-intensief cloud-inferentie is — het dagelijkse gebruik van AI-modellen is verantwoordelijk voor 80 tot 90% van het totale AI-energieverbruik (onze analyse van het VN-rapport).

Wanneer het nu al bruikbaar is

De use cases die nu in productie werken voor een brede gebruikersgroep: automatische spraakherkenning (Whisper-klein) voor lokale transcriptie waarbij de audio het apparaat niet mag verlaten; sentimentanalyse en intent-classificatie op klantfeedback; zero-shot document-tagging; vertaling van en naar de meeste grote talen zonder externe API-afhankelijkheid; beeldclassificatie voor eenvoudige visuele controles.

Wat minder stabiel is: lange gesprekken met grote taalmodellen (sterk hardware-afhankelijk), complexe meertalige taken met hoge nauwkeurigheidseisen, en alles waar je de redeneer-diepte van een frontier-model nodig hebt.

De architectuurkeuze is dus niet “cloud of browser” maar een preciezere vraag: welk deel van de pipeline staat geen netwerk-hop toe, hoe klein kan het model daarvoor zijn, en wat is het minimale apparaat in je gebruikersgroep? Dat is een andere afweging dan twee jaar geleden, toen het antwoord simpelweg “alles gaat naar de API” was.

Voor meer context over hoe inferentie technisch werkt en waarom de locatie ervan zoveel bepaalt voor kosten en latency: onze uitleg van AI-inferentie. En als je wilt weten welke open-source modellen klein genoeg zijn om als basis voor browser-inferentie te dienen: onze stand van open-source AI in 2026.

Deel dit artikel

Veelgestelde vragen

Kan AI echt volledig in de browser draaien zonder server?

Ja, voor specifieke taken werkt het goed. Met WebGPU als GPU-backend en tools als Transformers.js of WebLLM draait alles client-side. De beperking zit in modelgrootte: compacte modellen tot circa 500 MB werken prima voor NLP-taken, spraakherkenning en classificatie. Complexe redeneermodellen als Claude of GPT-5 horen vooralsnog in de cloud.

Welke browsers ondersteunen WebGPU in 2026?

Chrome en Edge ondersteunen WebGPU al sinds versie 113. Firefox heeft het standaard op Windows sinds versie 141 en op macOS Tahoe 26 (ARM64). Safari ondersteunt het in macOS, iOS en iPadOS Tahoe 26. Op mobiel is de situatie wisselend: Chrome Android werkt op recente hardware, Firefox Android is nog achter een vlag.

Wat is het verschil tussen Transformers.js en WebLLM?

Transformers.js is van Hugging Face en ondersteunt brede modeltypen — NLP, computer vision, audio — altijd via ONNX Runtime. WebLLM van MLC AI richt zich specifiek op grote taalmodellen in de browser en behoudt tot 80% van de native GPU-prestatie. WebLLM heeft bovendien een OpenAI-compatibele API, waardoor je bestaande chatbot-code nauwelijks hoeft aan te passen.

Hoe groot mag een model zijn om soepel in de browser te werken?

Als vuistregel: modellen tot circa 500 MB werken vlot in de browser op middelklasse hardware. Grotere modellen (7B-parameters en meer) vereisen een moderne GPU met voldoende VRAM. Met WebLLM zijn 7B-modellen haalbaar op een high-end consumentenlaptop met Apple Silicon of recente NVIDIA-GPU, maar voor brede inzet in webapps zijn compacte geoptimaliseerde modellen de betere keuze.

Is client-side AI veiliger voor privacygevoelige data?

Voor data die het apparaat niet mag verlaten: ja. Als het model lokaal draait, verlaat de data de browser niet — dat is een technische eigenschap, geen contractuele belofte. Medische notities, vertrouwelijke bedrijfsdocumenten, persoonlijke tekst: client-side AI geeft een architecturele garantie die een cloud-API niet kan geven.

ONNX Runtime Web unleashes generative AI in the browser using WebGPU — Microsoft Open Source Blogopensource.microsoft.com
Transformers.js documentatie — Hugging Facehuggingface.co
WebLLM: A High-Performance In-Browser LLM Inference Engine — arXivarxiv.org
WebGPU is now supported in major browsers — web.devweb.dev

Wat maakt dit nu mogelijk?

De twee toolkits die het verschil maken

Waar de grens ligt

Waarom privacy hier het echte argument is

Wanneer het nu al bruikbaar is

Veelgestelde vragen

Lees verder

ChatGPT-beveiliging: een papieren muur — wat deel je beter niet?

Gemma 4 12B: Google's gratis AI-model draait op je eigen laptop

ChatGPT krijgt nieuw geheugen: wat Dreaming V3 onthoudt (en vergeet)

Wat is Ollama? Lokale taalmodellen draaien op je eigen computer, uitgelegd