Als je in 2024 een chatbot wilde inbouwen in een webapplicatie, had je een backend nodig. Die draaide de API-calls naar OpenAI, Anthropic of een andere aanbieder, beheerde de sleutels, schreef de logs en stuurde de resultaten terug. Drie lagen voor iets wat voelt als een simpele “geef me een antwoord”-loop.
Dat model verschuift. Niet voor alles, en niet voor iedereen morgen, maar de tooling is er: een groeiende categorie AI-taken kan nu direct in de browsertab draaien, zonder backend, zonder API-kosten, zonder data die het apparaat verlaat.
Wat maakt dit nu mogelijk?
Drie ontwikkelingen die in 2024 en 2025 samenkwamen.
WebGPU is de GPU-API die browsers pas recent écht breed ondersteunen. Chrome en Edge hadden het als eerste (versie 113), Firefox volgde in november 2025 op Windows (versie 141) en later op macOS, en Safari rolde het uit met macOS, iOS en iPadOS Tahoe 26. (Bron: web.dev) Daarvoor had je met WebGL of WebAssembly een compromis op het gebied van GPU-prestaties. WebGPU is een laag dichter bij de echte grafische driver — vergelijkbaar met hoe Vulkan of Metal dichter bij de hardware zit dan OpenGL. Voor matrixoperaties, precies wat neurale netwerken nodig hebben, maakt dat een merkbaar verschil.
ONNX Runtime Web is de JavaScript-port van Microsoft’s inferentie-runtime. Hij ondersteunt WebGPU, WebGL, WebNN en als fallback WebAssembly, en kiest automatisch de snelste beschikbare optie. (Bron: Microsoft Open Source Blog) Een gebruiker met een moderne GPU krijgt de snelle route; iemand op een oudere telefoon valt terug op WASM. Die graceful degradation is een van de redenen waarom ONNX Runtime Web de de-facto basis is geworden voor browser-gebaseerde ML-tooling.
Kleine, geoptimaliseerde modellen in ONNX-formaat. Hugging Face heeft inmiddels duizenden modellen beschikbaar die direct te laden zijn met Transformers.js — geconverteerd, gekwantiseerd en klaar voor browsergebruik. Modellen van 100–500 MB laden in seconden en draaien daarna volledig offline.
De twee toolkits die het verschil maken
Transformers.js van Hugging Face is het meest complete startpunt voor de meeste use cases. De API lijkt bewust sterk op de Python-library, zodat je bestaande pipelines kunt omzetten zonder alles opnieuw te leren. Ondersteunde taken: tekst-classificatie, samenvatting, vertaling, named entity recognition, vraag-en-antwoord, beeldclassificatie, objectdetectie, automatische spraakherkenning en meer. (Bron: Hugging Face)
Een typische initialisatie ziet er zo uit:
import { pipeline } from '@xenova/transformers';
const classifier = await pipeline('sentiment-analysis');
const result = await classifier('Dit werkt verrassend goed.');
Het model wordt de eerste keer gedownload en daarna gecached in de browser. Herlaad de pagina, en inferentie start direct — geen netwerkverzoek meer nodig.
WebLLM van MLC AI richt zich op iets ambitieuzers: volledige taalmodellen in de browser. De bibliotheek gebruikt geoptimaliseerde WebGPU-kernels via de MLC-LLM compiler en Apache TVM, en bereikt daarmee tot 80% van de native GPU-prestatie op hetzelfde apparaat — een cijfer uit het peer-reviewed onderzoek van december 2024. (Bron: arXiv) De API is OpenAI-compatibel, wat betekent dat bestaande chatbot-code met kleine aanpassingen draait op een lokaal 7B-model in de browser.
Gevorderden:WebLLM haalt die 80% met een combinatie van quantization, operator fusion en prefill-optimalisaties in de MLC-LLM compiler. Wil je benchmarken op je eigen hardware, dan heeft WebLLM een ingebouwde profiling-mode die per-operatie timings rapporteert — handig om te bepalen of het model geschikt is voor je doelgroep-hardware.
Waar de grens ligt
De beperking is modelgrootte, en die is reëel. Een 7B-model vraagt in gecomprimeerde vorm nog altijd 3–4 GB download en genoeg GPU-geheugen om de berekeningen parallel te houden. Op een moderne laptop met Apple Silicon of een recente NVIDIA-GPU is dat haalbaar; op een gemiddelde Android-telefoon of een drie jaar oude werklaptop niet.
De praktische indeling voor productiegebruik: voor NLP-taken op tekst (classificatie, extractie, korte samenvatting) zijn compacte ONNX-modellen van 50–300 MB prima. Voor spraakherkenning via Whisper-varianten is 200–400 MB realistisch. Voor volledige chatinteractie met een 7B-model heb je hardware nodig die niet iedereen in je gebruikersgroep heeft.
Dit maakt client-side AI ook iets anders dan wat Ollama doet op je eigen machine: Ollama draait op hardware die jij volledig controleert, met je bestandssysteem en volledige GPU-geheugen beschikbaar. Een browser draait op hardware van een bezoeker, met de beperkingen van de sandbox. Het zit er tussenin — en dat is soms precies de juiste plek.
Gevorderden:ONNX Runtime Web kiest automatisch de snelste execution provider, maar je kunt forceren via
{ executionProviders: ['webgpu'] }of['wasm']. WebGPU wint op grotere modellen dankzij GPU-parallellisatie; WASM kan sneller zijn op kleine modellen doordat het GPU-initialisatieoverhead vermijdt. Test op je concrete model- en hardwarecombinatie voordat je de provider vastlegt.
Waarom privacy hier het echte argument is
Kosten zijn een valide argument: geen API-calls betekent geen token-factuur. Latency ook: zonder netwerkround-trip reageert een simpele classificatie in tientallen milliseconden.
Maar het sterkste argument is architectureel van aard. Als de inferentie client-side draait, verlaat de data het apparaat niet. Dat is geen privacybeleid dat morgen kan worden aangepast of een verwerkingsovereenkomst die je kunt tekenen — het is een technische eigenschap van hoe het systeem gebouwd is. Een offline vertaaltool voor vertrouwelijke contracten, een classificatiemodel dat medische notities tagt, een chatbot die juridische documenten verwerkt: voor die use cases geeft client-side AI een garantie die een cloud-API structureel niet kan geven.
In een bredere context: een inferentie die plaatsvindt op hardware die de gebruiker al bezit en die al betaald is, verbruikt geen datacenter-capaciteit. Dat is ook relevant als je weet hoe energie-intensief cloud-inferentie is — het dagelijkse gebruik van AI-modellen is verantwoordelijk voor 80 tot 90% van het totale AI-energieverbruik (onze analyse van het VN-rapport).
Wanneer het nu al bruikbaar is
De use cases die nu in productie werken voor een brede gebruikersgroep: automatische spraakherkenning (Whisper-klein) voor lokale transcriptie waarbij de audio het apparaat niet mag verlaten; sentimentanalyse en intent-classificatie op klantfeedback; zero-shot document-tagging; vertaling van en naar de meeste grote talen zonder externe API-afhankelijkheid; beeldclassificatie voor eenvoudige visuele controles.
Wat minder stabiel is: lange gesprekken met grote taalmodellen (sterk hardware-afhankelijk), complexe meertalige taken met hoge nauwkeurigheidseisen, en alles waar je de redeneer-diepte van een frontier-model nodig hebt.
De architectuurkeuze is dus niet “cloud of browser” maar een preciezere vraag: welk deel van de pipeline staat geen netwerk-hop toe, hoe klein kan het model daarvoor zijn, en wat is het minimale apparaat in je gebruikersgroep? Dat is een andere afweging dan twee jaar geleden, toen het antwoord simpelweg “alles gaat naar de API” was.
Voor meer context over hoe inferentie technisch werkt en waarom de locatie ervan zoveel bepaalt voor kosten en latency: onze uitleg van AI-inferentie. En als je wilt weten welke open-source modellen klein genoeg zijn om als basis voor browser-inferentie te dienen: onze stand van open-source AI in 2026.