Op 3 juni zette Google een AI-model online dat je niet in de cloud hoeft te draaien. Gemma 4 12B past op een gewone laptop met 16GB geheugen, verwerkt tekst, beeld én geluid, en je mag het gratis commercieel gebruiken. Voor een MKB’er die met AI wil werken maar z’n klantdata liever niet naar een Amerikaanse server stuurt, is dat een concreet verschil.
Wat Google heeft uitgebracht
Gemma 4 12B is een open model: de “gewichten” staan vrij te downloaden, onder een Apache 2.0-licentie die commercieel gebruik toestaat. Met 12 miljard parameters zit het tussen Google’s lichte E4B-variant en het zwaardere 26B-model in. Volgens Google haalt het op benchmarks bijna het niveau van dat 26B-model, met minder dan de helft van het geheugen (Bron: Google).
Twee dingen maken het interessant. Eén: het draait lokaal op 16GB werkgeheugen, het soort RAM dat in veel moderne Windows-laptops en elke recente MacBook zit. Twee: het is multimodaal en verwerkt naast tekst ook beeld en audio rechtstreeks. Google noemt het het eerste model van dit middenformaat met ingebouwde audio-invoer (Bron: Google Developers Blog).
Beginner-tip:“Lokaal draaien” betekent dat het model op je eigen laptop rekent in plaats van op een server van Google of OpenAI. Je downloadt het één keer; daarna verlaten je vragen en documenten je apparaat niet meer. Dat is precies waarom het voor gevoelige data interessant is.
Waar het in past
Gemma 4 hoort bij een bredere beweging: krachtige modellen die je zelf draait, in plaats van per gebruik af te rekenen. Dat zag je dit jaar al bij MiniMax M3, een open-weights frontier-model met 1M context en bij de prijsverlaging van 75% bij DeepSeek. Het hele landschap schetsen we in de staat van open-source AI in 2026.
Technisch valt op dat Gemma 4 “encoder-vrij” is: in plaats van losse onderdelen voor beeld en geluid projecteert het ruwe signalen rechtstreeks naar dezelfde representatie als tekst. Dat houdt het model compact genoeg voor een laptop, terwijl het de inference — het draaien van het model bij elke vraag — versnelt met een techniek die meerdere tokens tegelijk voorspelt.
Wat dit voor jou betekent
Lokaal draaien is geen doel op zich. Voor de meeste taken — een mail herschrijven, een lange PDF samenvatten — is een cloud-dienst als ChatGPT of Claude simpeler en vaak beter. Maar er zijn drie situaties waarin een model als Gemma 4 het verschil maakt: privacy-gevoelige documenten die je apparaat niet mogen verlaten, hoge volumes simpele taken waar per-token-kosten oplopen, en werk zonder betrouwbaar internet.
Wil je het zelf proberen, dan draai je Gemma 4 het makkelijkst via Ollama, de gratis tool die lokale modellen in één commando opstart. De hardware eronder — de NPU in moderne AI-laptops — bepaalt hoe vlot dat gaat.
De winst is niet dat je morgen je ChatGPT-abonnement opzegt. Het is dat een serieuze AI nu op je eigen laptop past en je gegevens binnenshuis houdt — handig voor een ondernemer met klantdata, maar net zo goed voor wie z’n eigen documenten liever niet de cloud in stuurt. Zonder maandbedrag, zonder dat er iets naar buiten lekt.