AI Nieuws1 juni 2026Bijgewerkt 3 juli 20267 minExpert

MiniMax M3: open-weights frontier-model met 1M context

MiniMax bracht 1 juni 2026 M3 uit: 59% op SWE-Bench Pro, 1M tokens context via MSA-architectuur. Weights zijn medio juni vrijgekomen via Hugging Face en GitHub. Wat het betekent.

doorRedactie · Redactieteam, Het Laatste AI Nieuws1 juni 2026

In één oogopslag

MiniMax bracht op 1 juni 2026 M3 uit — het eerste open-weights model dat frontier-coding, 1M token context én native multimodaliteit in één model bundelt.
Op SWE-Bench Pro scoort M3 59,0% — boven GPT-5.5 en Gemini 3.1 Pro, en dicht bij Claude Opus 4.8. Op MCP Atlas haalt het 74,2%, op Terminal-Bench 2.1 zit het op 66,0%.
De nieuwe MSA-architectuur (MiniMax Sparse Attention) verlaagt de compute per token bij 1M context tot 1/20e van de vorige generatie, met 9× snellere prefill en 15× snellere decoding.
Het model is direct beschikbaar via API, Token Plan ($20–$120 per maand) en MiniMax Code (code.minimax.io); weights en technisch rapport zijn medio juni 2026 vrijgekomen via Hugging Face en GitHub.
Belangrijke kanttekening: bijna alle benchmark-scores zijn gedraaid op MiniMax' eigen infrastructuur met Claude Code als scaffolding — onafhankelijke runs zijn nog niet beschikbaar.

MiniMax, het Chinese AI-lab achter eerdere modellen als M2.7 en de Hailuo-videogenerator, bracht op 1 juni 2026 M3 uit. Het nieuwe vlaggenschipmodel is volgens MiniMax het eerste open-weights model dat drie “frontier”-eigenschappen in één model combineert: top-tier coding en agent-prestaties, een context van 1 miljoen tokens en native multimodaliteit. Op SWE-Bench Pro scoort M3 59,0% — boven GPT-5.5 en Gemini 3.1 Pro, en dicht bij Claude Opus 4.8 (Bron: MiniMax). Wat de architectuur erachter doet, is minstens zo interessant als de cijfers zelf.

Beginner-tip:“Open-weights” betekent dat je de gewichten van het model — de cijfers die het na training heeft geleerd — gratis kunt downloaden en zelf draaien. Dat is iets anders dan “open source” (waar ook de trainingscode beschikbaar is). Voor bedrijven betekent open-weights: je kunt het model zelf hosten en data binnenshuis houden, mits je de GPU-capaciteit hebt. Hoe je zo’n model praktisch lokaal draait, leggen we uit inWat is Ollama? Lokale taalmodellen draaien op je eigen computer.

Wat MiniMax M3 precies aanbiedt

M3 verschilt op vier punten van wat er deze maanden van Westerse labs kwam:

Frontier-coding én agentic. Op SWE-Bench Pro haalt M3 59,0% — een benchmark waarbij het model echte bugs in open-source repositories moet oplossen. Op Terminal-Bench 2.1 zit het op 66,0% (versus GPT-5.5 op 78,2% en Gemini 3.1 Pro op 70,0%), op MCP Atlas op 74,2% (versus Opus 4.8 op 77% en GPT-5.5 op 75,3%), en op KernelBench Hard — een notoir lastige test voor CUDA-kernels — op 28,8% (Bron: MiniMax).

Benchmark	MiniMax M3	GPT-5.5	Gemini 3.1 Pro	Claude Opus 4.8
SWE-Bench Pro	59,0%	lager	lager	iets hoger
Terminal-Bench 2.1	66,0%	78,2%	70,0%	n.b.
MCP Atlas	74,2%	75,3%	n.b.	77%
KernelBench Hard	28,8%	n.b.	n.b.	n.b.

MiniMax draaide de benchmarks op eigen infrastructuur; wacht op onafhankelijke runs voor harde vergelijkingen. “n.b.” = niet door MiniMax gerapporteerd.

1 miljoen tokens context. Dat is zo’n 750.000 woorden Nederlands, ofwel een complete codebase van een middelgroot project of een paar honderd PDF-pagina’s tegelijk. Belangrijker: de architectuur is gebouwd om dat soort context werkelijk te benutten, niet alleen formeel te ondersteunen.

Native multimodaal “vanaf Step 0”. M3 accepteert tekst, beelden én video als input en kan een desktop besturen — het kan dus, gegeven een screenshot, knoppen aanwijzen en handelingen uitvoeren. Dit is de “computer use”-capaciteit waar Anthropic en OpenAI ook aan werken, maar in M3 zit het vanaf de eerste trainingsstap ingebouwd in plaats van als latere fijn-afstemming.

Open weights binnen 10 dagen. MiniMax kondigde aan dat het model-rapport en de gewichten rond 11 juni 2026 publiek worden. Tot die tijd is M3 alleen via betaalde API of Token Plan beschikbaar (Bron: MiniMax).

Gevorderden:De Token Plans staan op $20 (1,7 miljard tokens per maand), $50 (5,1 miljard) en $120 (9,8 miljard). Tekst, beeld, spraak en muziek delen één tokenpool. Voor wie via de API gaat: prijzen lopen op above-512K-input tokens (long-context-tarief) en zijn beneden die drempel goedkoper. Depriority-tier is nog niet voor iedereen open, maar wordt binnen enkele dagen uitgerold.

De architectuur: waarom MSA dit mogelijk maakt

Het echte verhaal zit in MSA — MiniMax Sparse Attention. Klassieke transformer-modellen gebruiken “full attention”, waarbij elk token in de input naar elk ander token kijkt. De rekenkost groeit kwadratisch met de context-lengte. Voor 1 miljoen tokens wordt dat fysiek onbetaalbaar.

MSA breekt die curve open. In plaats van alles met alles te vergelijken, partitioneert MSA de key-value cache in blokken en laat het model een voorfilterstap doen waarin alleen de relevante blokken bekeken worden. Vergeleken met eerdere sparse-attention-aanpakken zoals DSA en MoBA partitioneert MSA preciezer, en op operator-niveau is een “KV outer gather Q”-aanpak ingezet die meer dan 4× sneller is dan open-source alternatieven als Flash-Sparse-Attention en flash-moba (Bron: MiniMax).

Het concrete resultaat bij 1M context: per-token compute van M3 is 1/20e van het vorige model, prefill is 9× sneller en decoding 15× sneller. Dat is geen marginale verbetering — dat is de grens tussen “theoretisch mogelijk” en “betaalbaar bruikbaar”. Voor wie het bredere plaatje wil over hoe inferentie-kosten zich in 2026 ontwikkelen, lees onze deep-dive over tokens en watts.

Wat M3 in de praktijk doet — drie tests die opvielen

MiniMax publiceerde drie interne tests die laten zien wat het model in lange, autonome sessies kan:

Een paper reproduceren. M3 kreeg een ICLR 2025-paper (Learning Dynamics of LLM Finetuning) en de opdracht om het experimentele werk zelfstandig over te doen. Het model draaide bijna 12 uur autonoom, leverde 18 commits en 23 experimentele figuren op, en reproduceerde succesvol zowel de SFT-dynamiek als het squeezing-effect uit de DPO-experimenten van het originele werk (Bron: MiniMax).

Een CUDA-kernel optimaliseren. Gegeven alleen een taakomschrijving en een Triton-skelet (geen referentie-implementatie), kreeg M3 24 uur om een FP8-matrixvermenigvuldiging op Nvidia Hopper te optimaliseren. Resultaat: 147 benchmark-submissions, 1.959 tool-calls, en een sprong van 7,6% naar 71,3% hardware-piekgebruik — een 9,4× versnelling. Wat opviel: terwijl de meeste andere modellen na 30 submissions stopten met verbeteren, vond M3 z’n beste oplossing pas op submission 145.

Modellen trainen. Op PostTrainBench moest M3 binnen 12 uur autonoom vier basis-modellen leren rekenen, tools gebruiken en code genereren — inclusief het kiezen van trainingsdata en strategieën. Score: 0,37 — onder Opus 4.8 (0,42) en GPT-5.5 (0,39), maar boven de overige modellen.

Wat dit voor het bredere AI-landschap betekent

Drie dingen schuiven mee als M3 doet wat MiniMax zegt dat het doet:

Open-weights worden serieuze concurrentie. Tot voor kort was het verhaal: gesloten modellen lopen voor, open-weights volgen op twee kwartalen afstand. Met M3 — en eerder met DeepSeek V4-Pro en Qwen3 — schuift dat venster naar weken in plaats van maanden. Voor wie ontwikkelt op de staat van open-source AI is dit het nieuwste datapunt. Kort daarna bracht Google Gemma 4 12B uit, een multimodaal model dat op een gewone laptop draait: hetzelfde patroon, nu van een Amerikaanse gigant.

Het Chinese AI-landschap wordt onmiskenbaar. MiniMax komt na DeepSeek’s V4-Pro-prijsverlaging en de open releases van Qwen3 en GLM-5.1. Dit is geen incidenteel succes meer; het is een patroon — hoe dat zich in juli doorzette met Kimi K3 en Qwen 3.8, lees je in Waarom Chinese open AI-modellen winnen. Tegelijk zijn de Westerse alternatieven nog dominant op verschillende benchmarks — Opus 4.8 ligt bijvoorbeeld iets hoger op MCP Atlas en CUDA-optimalisatie. Voor wie tussen aanbieders moet kiezen, blijft onze vergelijking van ChatGPT, Claude, Gemini en Copilot het uitgangspunt.

Native computer use wordt gewoon. De combinatie “model dat afbeeldingen leest én een desktop bestuurt” was tot 2025 een aparte product-categorie. M3 zet het neer als feature, niet als product. Dat trekt de drempel om met AI-agents iets uit te proberen weer een stukje lager — al blijven de praktische barrières (autorisatie, foutafhandeling, verantwoording) onveranderd.

Beginner-tip:Wil je M3 zelf eens uitproberen voordat de weights vrijkomen? De eenvoudigste route is viacode.minimax.io— een coding-interface vergelijkbaar met Claude Code. Voor wie alleen wil zien hoe het model schrijft of redeneert: het Token Plan op $20 per maand geeft ongeveer 1,7 miljard tokens, ruim genoeg voor weken experimenten.

De kanttekeningen die je moet meenemen

Een paar dingen die makkelijk uit zicht raken als je alleen naar de cijfers kijkt:

De benchmarks zijn intern gedraaid. MiniMax meldt zelf in de evaluatiemethodologie dat bijna alle scores op eigen infrastructuur zijn gedraaid, vaak met Claude Code als agent-scaffolding. Dat is niet per se manipulatief — het is een standaard manier om coding-agents te testen — maar het maakt directe vergelijking met de officiële leaderboards van GPT-5.5 of Opus 4.8 lastig. Wacht op onafhankelijke runs voordat je inkoopbeslissingen op deze cijfers baseert (Bron: VentureBeat).

Open weights ≠ open use. Net als bij DeepSeek geldt dat zelfs als de gewichten vrijkomen, ze onder MiniMax’ licentie staan. Lees de voorwaarden voordat je commerciële producten erop bouwt. De EU AI Act maakt geen onderscheid naar herkomst, dus governance-verplichtingen blijven gelden ongeacht welk model je kiest.

De API ligt geografisch in China. Voor klantdata of gevoelige documenten is dat dezelfde discussie als bij elke niet-Europese aanbieder. Zodra de weights vrij zijn, kun je self-hosten of via een EU-provider werken; tot die tijd is de officiële API de enige route — en die loopt via MiniMax’ eigen infrastructuur.

Wat de volgende stap is

Als je een coding-workflow hebt die nu op Claude of GPT draait: zet één concreet experiment op. Pak een issue dat je deze week ging aanpakken, draai het door MiniMax Code, en vergelijk de output op kwaliteit én tijd. Dat duurt een uur, kost een paar euro (of een fractie van je Token Plan-quota), en geeft een eerlijk antwoord op de vraag of M3 voor jouw werk werkt.

Voor iedereen anders: wacht tien dagen. Zodra de weights en het technisch rapport publiek zijn, weet je veel meer over hoe het model is getraind, hoe MSA exact werkt, en welke trade-offs onder de motorkap zitten. Op dat moment beginnen ook de onafhankelijke benchmark-runs binnen te druppelen. Pas dán heeft de “M3 versus Opus 4.8”-vergelijking betekenis. Voor wie de tool-keuze zakelijk wil maken, geeft onze zustersite een actuele Claude-review en een Claude-vs-ChatGPT vergelijking als referentiepunt.

Deel dit artikel

Volg ons in Google

Veelgestelde vragen

Wat is MiniMax M3 en waarom is het anders dan eerdere open modellen?

M3 is het nieuwste vlaggenschipmodel van het Chinese AI-lab MiniMax, gelanceerd op 1 juni 2026. Wat het onderscheidt: het is volgens MiniMax het eerste open-weights model dat frontier-niveau coding, een context van 1 miljoen tokens én native multimodaliteit (tekst, beeld én video als input) tegelijk levert. Eerdere open modellen zoals DeepSeek V4-Pro en Qwen3 deden delen daarvan, maar niet alle drie. De weights komen binnen 10 dagen vrij; tot die tijd kun je het model alleen via de API of via MiniMax Code testen.

Hoe verhoudt M3 zich tot Claude Opus 4.8, GPT-5.5 en Gemini 3.1 Pro?

Op coding-benchmarks zit M3 tussen Opus 4.8 en GPT-5.5 in. SWE-Bench Pro: M3 59,0% versus Opus 4.8 op vergelijkbare hoogte en GPT-5.5/Gemini 3.1 Pro lager. Terminal-Bench 2.1: M3 66,0%, GPT-5.5 78,2%, Gemini 3.1 Pro 70,0%. MCP Atlas: M3 74,2%, Opus 4.8 77%, GPT-5.5 75,3%. Belangrijk: deze cijfers komen uit MiniMax' eigen tests, gedraaid op eigen infrastructuur met Claude Code als scaffolding — niet vergelijkbaar met onafhankelijke leaderboard-runs.

Wat is MSA, de sparse attention-architectuur die MiniMax gebruikt?

MSA staat voor MiniMax Sparse Attention. Klassieke transformers gebruiken 'full attention', waarbij compute kwadratisch groeit met de context-lengte — duizend keer langere input betekent een miljoen keer meer rekenwerk. MSA splitst de key-value cache in blokken en laat het model alleen relevante blokken raadplegen, met een 'KV outer gather Q'-aanpak die geheugen-efficiënt is. Het resultaat: bij 1M context heeft M3 nog maar 1/20e van de compute per token nodig vergeleken met de vorige generatie, met meer dan 9× snellere prefill en 15× snellere decoding.

Zijn de open weights en het technisch rapport al beschikbaar?

Ja. MiniMax kondigde bij de lancering op 1 juni 2026 aan dat de weights binnen 10 dagen zouden volgen. Medio juni 2026 zijn ze vrijgekomen via Hugging Face en GitHub. Je kunt het model nu zelf draaien (mits voldoende GPU-capaciteit) of inzetten via providers als OpenRouter.

Is M3 zakelijk bruikbaar in Nederland gezien de Chinese herkomst?

Technisch werkt de API gewoon vanuit Europa. Maar dezelfde overwegingen gelden als bij DeepSeek of Qwen: API-calls gaan via MiniMax' infrastructuur, en hun voorwaarden zijn niet identiek aan Europese aanbieders. Voor experimenten en publieke data is dat geen probleem; voor klantgegevens, medische data of intellectueel eigendom kijk je naar de open weights zodra die er zijn, of naar self-hosting. De EU AI Act maakt geen onderscheid naar herkomst — hoog-risico toepassingen vereisen dezelfde compliance, ongeacht welk model je kiest.

MiniMaxminimax.io
VentureBeatventurebeat.com
Pandaily — MiniMax Launches M3 Model With 1M Context and Native Multimodal Capabilitiespandaily.com
Startup Fortune — MiniMax M3 gives Chinese AI labs a new frontier coding teststartupfortune.com
MiniMax M3 model-paginaminimax.io

Wat MiniMax M3 precies aanbiedt

De architectuur: waarom MSA dit mogelijk maakt

Wat M3 in de praktijk doet — drie tests die opvielen

Wat dit voor het bredere AI-landschap betekent

De kanttekeningen die je moet meenemen

Wat de volgende stap is

Veelgestelde vragen

Claude

Lees verder

Waarom Chinese open AI-modellen winnen: 61% van het verkeer en nu ook topscores

Claude Cowork nu op web en mobiel: dit zijn de 3 belangrijkste veranderingen

AI-agents uitgelegd: wat de gratis Google-gids van 424 pagina's je leert

GitHub bezwijkt onder AI-code: soms uren per dag onbereikbaar