AI Nieuws 5 min Gevorderd

Gemma 4 12B: Google's gratis AI-model draait op je eigen laptop

Google bracht Gemma 4 12B uit: een multimodaal AI-model dat lokaal op een laptop met 16GB werkt. Wat dat betekent voor MKB dat data niet de cloud in wil.

Miniatuur diorama-illustratie bij artikel over Gemma 4 12B, het AI-model dat lokaal op een laptop draait

Op 3 juni zette Google een AI-model online dat je niet in de cloud hoeft te draaien. Gemma 4 12B past op een gewone laptop met 16GB geheugen, verwerkt tekst, beeld én geluid, en je mag het gratis commercieel gebruiken. Voor een MKB’er die met AI wil werken maar z’n klantdata liever niet naar een Amerikaanse server stuurt, is dat een concreet verschil.

Wat Google heeft uitgebracht

Gemma 4 12B is een open model: de “gewichten” staan vrij te downloaden, onder een Apache 2.0-licentie die commercieel gebruik toestaat. Met 12 miljard parameters zit het tussen Google’s lichte E4B-variant en het zwaardere 26B-model in. Volgens Google haalt het op benchmarks bijna het niveau van dat 26B-model, met minder dan de helft van het geheugen (Bron: Google).

Twee dingen maken het interessant. Eén: het draait lokaal op 16GB werkgeheugen, het soort RAM dat in veel moderne Windows-laptops en elke recente MacBook zit. Twee: het is multimodaal en verwerkt naast tekst ook beeld en audio rechtstreeks. Google noemt het het eerste model van dit middenformaat met ingebouwde audio-invoer (Bron: Google Developers Blog).

Beginner-tip:“Lokaal draaien” betekent dat het model op je eigen laptop rekent in plaats van op een server van Google of OpenAI. Je downloadt het één keer; daarna verlaten je vragen en documenten je apparaat niet meer. Dat is precies waarom het voor gevoelige data interessant is.

Waar het in past

Gemma 4 hoort bij een bredere beweging: krachtige modellen die je zelf draait, in plaats van per gebruik af te rekenen. Dat zag je dit jaar al bij MiniMax M3, een open-weights frontier-model met 1M context en bij de prijsverlaging van 75% bij DeepSeek. Het hele landschap schetsen we in de staat van open-source AI in 2026.

Technisch valt op dat Gemma 4 “encoder-vrij” is: in plaats van losse onderdelen voor beeld en geluid projecteert het ruwe signalen rechtstreeks naar dezelfde representatie als tekst. Dat houdt het model compact genoeg voor een laptop, terwijl het de inference — het draaien van het model bij elke vraag — versnelt met een techniek die meerdere tokens tegelijk voorspelt.

Wat dit voor jou betekent

Lokaal draaien is geen doel op zich. Voor de meeste taken — een mail herschrijven, een lange PDF samenvatten — is een cloud-dienst als ChatGPT of Claude simpeler en vaak beter. Maar er zijn drie situaties waarin een model als Gemma 4 het verschil maakt: privacy-gevoelige documenten die je apparaat niet mogen verlaten, hoge volumes simpele taken waar per-token-kosten oplopen, en werk zonder betrouwbaar internet.

Wil je het zelf proberen, dan draai je Gemma 4 het makkelijkst via Ollama, de gratis tool die lokale modellen in één commando opstart. De hardware eronder — de NPU in moderne AI-laptops — bepaalt hoe vlot dat gaat.

De winst is niet dat je morgen je ChatGPT-abonnement opzegt. Het is dat een serieuze AI nu op je eigen laptop past en je gegevens binnenshuis houdt — handig voor een ondernemer met klantdata, maar net zo goed voor wie z’n eigen documenten liever niet de cloud in stuurt. Zonder maandbedrag, zonder dat er iets naar buiten lekt.

Veelgestelde vragen

Wat is Gemma 4 12B precies?

Gemma 4 12B is een open AI-model van Google met 12 miljard parameters, uitgebracht op 3 juni 2026 onder een Apache 2.0-licentie. 'Open' betekent dat je de gewichten vrij kunt downloaden en het model op je eigen hardware draait. Het is multimodaal: het verwerkt tekst, beeld en audio. Het bijzondere is dat het klein genoeg is om lokaal te draaien op een laptop met ongeveer 16GB werkgeheugen, terwijl het op benchmarks bijna het niveau van Google's zwaardere 26B-model haalt.

Welke hardware heb ik nodig om Gemma 4 12B te draaien?

Google geeft als richtlijn ongeveer 16GB werkgeheugen (RAM of unified memory). Dat zit in veel moderne Windows-laptops en in elke recente MacBook. Je hebt geen dedicated GPU of datacenter nodig. De makkelijkste manier om het te draaien is via Ollama, dat het model met één commando downloadt en opstart. Hoe vlot het werkt hangt af van je processor en geheugen; op een MacBook met Apple Silicon loopt een model van dit formaat soepel.

Is Gemma 4 12B gratis voor commercieel gebruik?

Ja. De Apache 2.0-licentie staat commercieel gebruik toe, inclusief aanpassen en doorverdelen. Je betaalt geen licentie per gebruik en geen kosten per token, zoals bij een cloud-API. Wat je wel zelf regelt is de hardware en het onderhoud: het model draait op jouw machine, dus jij bent verantwoordelijk voor de opslag, de updates en de beveiliging.

Wanneer kies je een lokaal model en wanneer een cloud-dienst?

Een lokaal model als Gemma 4 is sterk bij privacy-gevoelig werk (de data verlaat je apparaat niet), bij hoge volumes simpele taken (geen oplopende per-token-kosten) en bij werk zonder betrouwbaar internet. Voor de allerzwaarste taken — complexe redenering, lange context, fijne nuance in het Nederlands — leveren cloud-modellen als Claude of GPT-5 in 2026 nog steeds betere antwoorden. Veel bedrijven werken hybride: lokaal voor het meeste, een API voor de zware uitschieters.

Bronnen

Waar deze informatie vandaan komt.