MiniMax, het Chinese AI-lab achter eerdere modellen als M2.7 en de Hailuo-videogenerator, bracht op 1 juni 2026 M3 uit. Het nieuwe vlaggenschipmodel is volgens MiniMax het eerste open-weights model dat drie “frontier”-eigenschappen in één model combineert: top-tier coding en agent-prestaties, een context van 1 miljoen tokens en native multimodaliteit. Op SWE-Bench Pro scoort M3 59,0% — boven GPT-5.5 en Gemini 3.1 Pro, en dicht bij Claude Opus 4.7 (Bron: MiniMax). Wat de architectuur erachter doet, is minstens zo interessant als de cijfers zelf.
Beginner-tip:“Open-weights” betekent dat je de gewichten van het model — de cijfers die het na training heeft geleerd — gratis kunt downloaden en zelf draaien. Dat is iets anders dan “open source” (waar ook de trainingscode beschikbaar is). Voor bedrijven betekent open-weights: je kunt het model zelf hosten en data binnenshuis houden, mits je de GPU-capaciteit hebt. Hoe je zo’n model praktisch lokaal draait, leggen we uit inWat is Ollama? Lokale taalmodellen draaien op je eigen computer.
Wat MiniMax M3 precies aanbiedt
M3 verschilt op vier punten van wat er deze maanden van Westerse labs kwam:
Frontier-coding én agentic. Op SWE-Bench Pro haalt M3 59,0% — een benchmark waarbij het model echte bugs in open-source repositories moet oplossen. Op Terminal-Bench 2.1 zit het op 66,0% (versus GPT-5.5 op 78,2% en Gemini 3.1 Pro op 70,0%), op MCP Atlas op 74,2% (versus Opus 4.7 op 77% en GPT-5.5 op 75,3%), en op KernelBench Hard — een notoir lastige test voor CUDA-kernels — op 28,8% (Bron: MiniMax).
1 miljoen tokens context. Dat is zo’n 750.000 woorden Nederlands, ofwel een complete codebase van een middelgroot project of een paar honderd PDF-pagina’s tegelijk. Belangrijker: de architectuur is gebouwd om dat soort context werkelijk te benutten, niet alleen formeel te ondersteunen.
Native multimodaal “vanaf Step 0”. M3 accepteert tekst, beelden én video als input en kan een desktop besturen — het kan dus, gegeven een screenshot, knoppen aanwijzen en handelingen uitvoeren. Dit is de “computer use”-capaciteit waar Anthropic en OpenAI ook aan werken, maar in M3 zit het vanaf de eerste trainingsstap ingebouwd in plaats van als latere fijn-afstemming.
Open weights binnen 10 dagen. MiniMax kondigde aan dat het model-rapport en de gewichten rond 11 juni 2026 publiek worden. Tot die tijd is M3 alleen via betaalde API of Token Plan beschikbaar (Bron: MiniMax).
Gevorderden:De Token Plans staan op $20 (1,7 miljard tokens per maand), $50 (5,1 miljard) en $120 (9,8 miljard). Tekst, beeld, spraak en muziek delen één tokenpool. Voor wie via de API gaat: prijzen lopen op above-512K-input tokens (long-context-tarief) en zijn beneden die drempel goedkoper. De
priority-tier is nog niet voor iedereen open, maar wordt binnen enkele dagen uitgerold.
De architectuur: waarom MSA dit mogelijk maakt
Het echte verhaal zit in MSA — MiniMax Sparse Attention. Klassieke transformer-modellen gebruiken “full attention”, waarbij elk token in de input naar elk ander token kijkt. De rekenkost groeit kwadratisch met de context-lengte. Voor 1 miljoen tokens wordt dat fysiek onbetaalbaar.
MSA breekt die curve open. In plaats van alles met alles te vergelijken, partitioneert MSA de key-value cache in blokken en laat het model een voorfilterstap doen waarin alleen de relevante blokken bekeken worden. Vergeleken met eerdere sparse-attention-aanpakken zoals DSA en MoBA partitioneert MSA preciezer, en op operator-niveau is een “KV outer gather Q”-aanpak ingezet die meer dan 4× sneller is dan open-source alternatieven als Flash-Sparse-Attention en flash-moba (Bron: MiniMax).
Het concrete resultaat bij 1M context: per-token compute van M3 is 1/20e van het vorige model, prefill is 9× sneller en decoding 15× sneller. Dat is geen marginale verbetering — dat is de grens tussen “theoretisch mogelijk” en “betaalbaar bruikbaar”. Voor wie het bredere plaatje wil over hoe inferentie-kosten zich in 2026 ontwikkelen, lees onze deep-dive over tokens en watts.
Wat M3 in de praktijk doet — drie tests die opvielen
MiniMax publiceerde drie interne tests die laten zien wat het model in lange, autonome sessies kan:
Een paper reproduceren. M3 kreeg een ICLR 2025-paper (Learning Dynamics of LLM Finetuning) en de opdracht om het experimentele werk zelfstandig over te doen. Het model draaide bijna 12 uur autonoom, leverde 18 commits en 23 experimentele figuren op, en reproduceerde succesvol zowel de SFT-dynamiek als het squeezing-effect uit de DPO-experimenten van het originele werk (Bron: MiniMax).
Een CUDA-kernel optimaliseren. Gegeven alleen een taakomschrijving en een Triton-skelet (geen referentie-implementatie), kreeg M3 24 uur om een FP8-matrixvermenigvuldiging op Nvidia Hopper te optimaliseren. Resultaat: 147 benchmark-submissions, 1.959 tool-calls, en een sprong van 7,6% naar 71,3% hardware-piekgebruik — een 9,4× versnelling. Wat opviel: terwijl de meeste andere modellen na 30 submissions stopten met verbeteren, vond M3 z’n beste oplossing pas op submission 145.
Modellen trainen. Op PostTrainBench moest M3 binnen 12 uur autonoom vier basis-modellen leren rekenen, tools gebruiken en code genereren — inclusief het kiezen van trainingsdata en strategieën. Score: 0,37 — onder Opus 4.7 (0,42) en GPT-5.5 (0,39), maar boven de overige modellen.
Wat dit voor het bredere AI-landschap betekent
Drie dingen schuiven mee als M3 doet wat MiniMax zegt dat het doet:
Open-weights worden serieuze concurrentie. Tot voor kort was het verhaal: gesloten modellen lopen voor, open-weights volgen op twee kwartalen afstand. Met M3 — en eerder met DeepSeek V4-Pro en Qwen3 — schuift dat venster naar weken in plaats van maanden. Voor wie ontwikkelt op de staat van open-source AI is dit het nieuwste datapunt.
Het Chinese AI-landschap wordt onmiskenbaar. MiniMax komt na DeepSeek’s V4-Pro-prijsverlaging en de open releases van Qwen3 en GLM-5.1. Dit is geen incidenteel succes meer; het is een patroon. Tegelijk zijn de Westerse alternatieven nog dominant op verschillende benchmarks — Opus 4.7 ligt bijvoorbeeld iets hoger op MCP Atlas en CUDA-optimalisatie. Voor wie tussen aanbieders moet kiezen, blijft onze vergelijking van ChatGPT, Claude, Gemini en Copilot het uitgangspunt.
Native computer use wordt gewoon. De combinatie “model dat afbeeldingen leest én een desktop bestuurt” was tot 2025 een aparte product-categorie. M3 zet het neer als feature, niet als product. Dat trekt de drempel om met AI-agents iets uit te proberen weer een stukje lager — al blijven de praktische barrières (autorisatie, foutafhandeling, verantwoording) onveranderd.
Beginner-tip:Wil je M3 zelf eens uitproberen voordat de weights vrijkomen? De eenvoudigste route is viacode.minimax.io— een coding-interface vergelijkbaar met Claude Code. Voor wie alleen wil zien hoe het model schrijft of redeneert: het Token Plan op $20 per maand geeft ongeveer 1,7 miljard tokens, ruim genoeg voor weken experimenten.
De kanttekeningen die je moet meenemen
Een paar dingen die makkelijk uit zicht raken als je alleen naar de cijfers kijkt:
De benchmarks zijn intern gedraaid. MiniMax meldt zelf in de evaluatiemethodologie dat bijna alle scores op eigen infrastructuur zijn gedraaid, vaak met Claude Code als agent-scaffolding. Dat is niet per se manipulatief — het is een standaard manier om coding-agents te testen — maar het maakt directe vergelijking met de officiële leaderboards van GPT-5.5 of Opus 4.7 lastig. Wacht op onafhankelijke runs voordat je inkoopbeslissingen op deze cijfers baseert (Bron: VentureBeat).
Open weights ≠ open use. Net als bij DeepSeek geldt dat zelfs als de gewichten vrijkomen, ze onder MiniMax’ licentie staan. Lees de voorwaarden voordat je commerciële producten erop bouwt. De EU AI Act maakt geen onderscheid naar herkomst, dus governance-verplichtingen blijven gelden ongeacht welk model je kiest.
De API ligt geografisch in China. Voor klantdata of gevoelige documenten is dat dezelfde discussie als bij elke niet-Europese aanbieder. Zodra de weights vrij zijn, kun je self-hosten of via een EU-provider werken; tot die tijd is de officiële API de enige route — en die loopt via MiniMax’ eigen infrastructuur.
Wat de volgende stap is
Als je een coding-workflow hebt die nu op Claude of GPT draait: zet één concreet experiment op. Pak een issue dat je deze week ging aanpakken, draai het door MiniMax Code, en vergelijk de output op kwaliteit én tijd. Dat duurt een uur, kost een paar euro (of een fractie van je Token Plan-quota), en geeft een eerlijk antwoord op de vraag of M3 voor jouw werk werkt.
Voor iedereen anders: wacht tien dagen. Zodra de weights en het technisch rapport publiek zijn, weet je veel meer over hoe het model is getraind, hoe MSA exact werkt, en welke trade-offs onder de motorkap zitten. Op dat moment beginnen ook de onafhankelijke benchmark-runs binnen te druppelen. Pas dán heeft de “M3 versus Opus 4.7”-vergelijking betekenis. Voor wie de tool-keuze zakelijk wil maken, geeft onze zustersite een actuele Claude-review en een Claude-vs-ChatGPT vergelijking als referentiepunt.
Samenvatting — de 5-minuten-versie
- MiniMax bracht op 1 juni 2026 M3 uit — volgens het lab het eerste open-weights model met frontier-coding, 1M context én native multimodaliteit in één pakket.
- SWE-Bench Pro: 59,0%, Terminal-Bench 2.1: 66,0%, MCP Atlas: 74,2% — boven GPT-5.5 en Gemini 3.1 Pro, dicht bij Claude Opus 4.7, maar gedraaid op eigen infrastructuur.
- De nieuwe MSA-architectuur (MiniMax Sparse Attention) verlaagt compute per token bij 1M context tot 1/20e van de vorige generatie, met 9× snellere prefill en 15× snellere decoding.
- Direct beschikbaar via API en MiniMax Code (code.minimax.io); Token Plan vanaf $20/maand. Weights en technisch rapport binnen 10 dagen.
- Voor Nederlandse gebruikers: experiment opzetten kan vandaag, maar wacht met inkoopbeslissingen tot onafhankelijke benchmarks en de open weights beschikbaar zijn.
Bronnen
- MiniMax — MiniMax M3: Frontier Coding, 1M Context, Native Multimodality — officiële aankondiging met benchmarks, architectuur en evaluatiemethodologie.
- VentureBeat — MiniMax-M3 debuts, eclipsing GPT-5.5 and Gemini 3.1 Pro — analyse met nadruk op kosten-positionering.
- Pandaily — MiniMax Launches M3 Model With 1M Context and Native Multimodal Capabilities — context vanuit de Chinese markt.
- Startup Fortune — MiniMax M3 gives Chinese AI labs a new frontier coding test — markteffect en kanttekeningen bij de benchmarks.
- MiniMax M3 model-pagina — officiële product- en pricing-pagina.