Je AI-abonnement loopt sneller leeg dan nodig, en bijna altijd om dezelfde reden: je laat het zware model werk doen dat een licht model ook aankan, en je sleept een eindeloos gesprek mee waarin het model alles opnieuw moet inlezen. Geen van die twee dingen maakt je antwoorden beter. Hieronder zes manieren om je verbruik flink omlaag te brengen, met de techniek erachter, zodat je begrijpt waaróm het werkt.
Eerst dit: elk bericht herhaalt het hele gesprek
Een taalmodel onthoudt niets tussen jouw berichten. Dat klinkt gek, want een chat voelt als een doorlopend gesprek. Onder de motorkap gebeurt iets anders: bij elke nieuwe vraag stuurt de app het complete gesprek opnieuw mee, zodat het model weet waar jullie het over hadden. Vraag tien is dus eigenlijk vraag één tot en met tien, in één keer opnieuw verwerkt.
Dat verklaart bijna alle onnodige kosten. Hoe langer je chat, hoe meer tekst er elke beurt opnieuw doorheen gaat, en hoe meer je per antwoord betaalt. Anthropic zegt het in zijn eigen documentatie voor ontwikkelaars onomwonden: het contextvenster vult zich snel, en de kwaliteit van de antwoorden zakt naarmate het voller raakt (Bron: Anthropic). Je betaalt dus meer én krijgt slechtere antwoorden. Wie wil begrijpen waar die rekenkracht precies in gaat zitten, vindt het volledige beeld in onze achtergrond Wat gebeurt er als je ChatGPT iets vraagt? AI-inferentie uitgelegd.
Beginner-tip:Een token is een stukje tekst van ongeveer driekwart woord. Aanbieders rekenen per token, niet per bericht — voor je vraag én voor het antwoord. Je hoeft tokens niet te tellen, maar het helpt om te weten dat álles wat in beeld staat meetelt.
1. Kies het juiste model voor de klus
Dit is veruit de grootste winst. Elke grote aanbieder heeft inmiddels een lichte en een zware variant, en de meeste mensen laten standaard het zwaarste model draaien — ook voor een mailtje herschrijven.
Bij Claude heb je Haiku (snel en goedkoop), Sonnet (het werkpaard) en Opus (voor echt complex werk). In Claude Code typ je /models om te wisselen. ChatGPT biedt een mini-variant naast het volledige model en een aparte “denk”-stand voor zware redenering. Bij Gemini is Flash de snelle, goedkope variant naast het krachtigere Pro.
De vuistregel: licht model voor samenvatten, herschrijven, formatteren, vertalen en korte vragen. Zwaar model voor meerstaps-redenering, lastige code, of analyse waar het echt op precisie aankomt. Je hebt geen raceauto nodig om een brood te halen. Twijfel je welke chatbot überhaupt bij je past, dan helpt onze vergelijking ChatGPT, Claude, Gemini of Copilot: welke AI past bij jou?.
2. Begin een nieuw gesprek per onderwerp
Omdat elk bericht het hele gesprek meesleept, is een lange chat met vijf verschillende onderwerpen het duurste wat je kunt doen. Bovendien raakt het model afgeleid door oude, irrelevante context.
De oplossing kost één klik: start een nieuw gesprek zodra je van onderwerp wisselt. In Claude Code doe je dat met /clear tussen losse taken, of /compact als je een lange sessie wilt samenvatten tot de kern voordat je verdergaat (Bron: Anthropic). In de gewone chat-apps van ChatGPT, Claude en Gemini is het simpelweg een nieuw gesprek openen. Behandel chats als kladblokken die je weggooit, niet als één eindeloos archief.
Gevorderden:Heb je halverwege een lange sessie waardevolle context opgebouwd die je niet wilt verliezen? Vraag het model dan eerst om een korte samenvatting, plak die in een nieuw gesprek, en ga daar verder. Je houdt de kern en dumpt de ballast.
3. Snoei in je vaste instructies
Veel mensen vullen custom instructions, een systeemprompt of een projectbestand met lange lappen tekst. Het probleem: die tekst wordt bij élke vraag opnieuw meegestuurd. Een instructiebestand van 5.000 tokens kost je 5.000 tokens per beurt, nog voordat het model naar je eigenlijke vraag kijkt.
Voor ontwikkelaars die met Claude Code werken geldt dit dubbel voor het CLAUDE.md-bestand. Anthropic raadt aan het kort en menselijk leesbaar te houden, en bij elke regel te vragen: zou Claude zonder deze regel een fout maken? Zo niet, schrap ‘m. Een te lang bestand zorgt er bovendien voor dat het model jouw belangrijke instructies juist gaat negeren (Bron: Anthropic). Zet de details in losse bestanden en verwijs ernaar; het model leest ze pas als het ze nodig heeft.
4. Stuur op lengte: korte output, geen document-dumps
Twee dingen blazen je verbruik op zonder dat je het doorhebt. Het eerste is uitgebreide output: vraag je om “leg uit”, dan krijg je drie schermen tekst. Vraag je om “leg uit in vijf zinnen”, dan krijg je vijf zinnen. Output kost net zo goed tokens, dus een concrete lengtevraag bespaart direct.
Het tweede is het dumpen van hele documenten. Plak je een PDF van veertig pagina’s in het venster om één vraag te stellen, dan betaal je voor alle veertig pagina’s — en bij elke vervolgvraag opnieuw. Knip terug tot het stuk dat er echt toe doet, of vat eerst samen en werk met de samenvatting verder. Scherp formuleren scheelt sowieso correctierondes; onze gids Prompten voor beginners: hoe stel je AI betere vragen? laat zien hoe je in één keer raak vraagt.
5. Voor wie via de API werkt: prompt caching en CLI’s
Bouw je een eigen toepassing of werk je via de API, dan ligt hier serieuze winst. Prompt caching bewaart een stuk context dat je telkens hergebruikt, zodat het niet elke keer opnieuw verwerkt wordt. De korting is fors: Anthropic rekent voor een cache-hit nog maar 10% van de normale invoerprijs (een cache-schrijfbeurt kost eenmalig 1,25× de invoerprijs) (Bron: Anthropic). OpenAI past de korting automatisch toe — standaard 50% op herhaalde invoer, voor prompts vanaf 1.024 tokens, zonder dat je iets hoeft aan te passen (Bron: OpenAI). Ook Gemini ondersteunt context caching als de belangrijkste kostenbesparing bij lange context (Bron: Google).
Een tweede tip uit dezelfde hoek: gebruik waar mogelijk een commandoregel-tool (CLI) in plaats van een zware integratie. Anthropic noemt CLI’s “de meest context-efficiënte manier” om met externe diensten te praten — een tool als gh voor GitHub eet veel minder tokens dan de bijbehorende integratie, die zijn volledige schema meestuurt (Bron: Anthropic). Dit is ook waarom dezelfde trend zichtbaar wordt in de prijsmodellen: GitHub Copilot stapte per 1 juni 2026 over op facturering per token, waardoor zuinig omgaan met context ineens direct op je rekening telt.
Gevorderden:Caching loont pas bij hergebruik. Een cache-schrijfbeurt is bij Anthropic iets duurder dan een gewone invoerbeurt, dus de besparing begint bij de eerste hit en stapelt daarna. Voor een chatbot die steeds dezelfde lange systeemprompt of kennisbasis meestuurt, is dat het verschil tussen een betaalbare en een onbetaalbare toepassing.
6. Draai simpel werk lokaal en gratis
De radicaalste besparing is helemaal geen verbruikskosten. Met een lokaal taalmodel via Ollama draai je AI op je eigen computer, zonder abonnement en zonder limiet. Op Windows werkt dezelfde aanpak met Ollama op je pc.
Wees wel eerlijk over de grenzen. Lokale modellen zijn prima voor schrijven, samenvatten en research, maar voor zwaar technisch werk merk je het gat met een betaald topmodel: meer fouten, en je mist functies als webzoeken. De slimme verdeling is dus niet “alles lokaal” maar: simpel en herhaalbaar werk lokaal, en je betaalde abonnement bewaren voor de klussen die er echt toe doen. Je zou versteld staan hoeveel van je dagelijkse gebruik in dat eerste mandje valt.
Geldt dit voor alle grote chatbots?
Ja, en dat komt doordat de onderliggende techniek bij iedereen hetzelfde is. ChatGPT, Claude, Gemini en Copilot draaien allemaal op transformer-modellen die per token rekenen en die het hele gesprek opnieuw verwerken bij elke beurt. Daarom werken dezelfde principes overal: kies een lichter model, houd je context schoon, vraag korte antwoorden.
De verschillen zitten in de details. Claude geeft je met handmatige caching de meeste controle, OpenAI en Gemini regelen het grotendeels automatisch. De modelnamen verschillen (Haiku versus mini versus Flash), maar de keuze is overal dezelfde: licht voor simpel, zwaar voor complex. En de prijsmodellen bewegen allemaal richting afrekenen per verbruik, wat alleen maar belangrijker maakt dat je zuinig bent met wat je instuurt. Hoeveel een licentie inmiddels werkelijk kost, lees je in ChatGPT duurder dan een stagiair?. En of je die kennis over tools en tarieven ook kunt omzetten naar een verdienmodel, legt Geld verdienen met AI-tools: wat beloven influencers en wat klopt er echt van? uit.
Samenvatting — de 5-minuten-versie
- Elk bericht herhaalt het hele gesprek. Een lange chat is duurder en levert slechtere antwoorden op; dat is de bron van de meeste onnodige kosten.
- Kies het juiste model. Licht model (Haiku, GPT-mini, Gemini Flash) voor simpel werk, zwaar model alleen voor echt complexe taken. Dit scheelt het meest.
- Begin schoon per onderwerp. Nieuw gesprek of
/cleartussen losse taken; vat lange sessies samen met/compactvoor je verdergaat. - Snoei vaste instructies en stuur op lengte. Custom instructions worden elke beurt meegestuurd, en korte-antwoord-vragen plus geen document-dumps schelen direct.
- Caching en CLI’s voor API-werk, lokaal draaien voor simpel werk. Caching geeft 50 tot 90% korting op herhaalde context; Ollama is gratis voor de makkelijke klussen.