Alibaba's AI draaide 35 uur door zonder fout — en dat is een grotere doorbraak dan weer een hogere score — AI Radar 25 mei (ochtend) · ai / nieuws

De vijf koppen van vandaag

Alibaba’s AI draaide 35 uur door zonder fout — en dat is een grotere doorbraak dan weer een hogere score
DeepSeek verlaagt prijzen met 75% en houdt dat zo: de API-prijzenoorlog is beslist
Claude Code wiste 92 afbeeldingen zonder te vragen — dit gebeurt vaker dan ontwikkelaars denken
Geheugen kost inmiddels tweederde van elke AI-chip, en die verhouding verschuift nog steeds
Websites worden herschreven voor ChatGPT in plaats van voor Google — de eerste tekenen van een nieuwe SEO

Het nieuws van vandaag

Alibaba’s AI-model deed 1.158 taken achter elkaar zonder haperen — dat is het échte nieuws

De vraag was nooit of AI slim genoeg wordt. De vraag is: houdt het dat vol als je niet meer meekijkt?

AutonomiePrestaties

Het nieuwe taalmodel van Alibaba, Qwen 3.7 Max, werkte vorige week 35 uur achter elkaar door. Het voerde meer dan duizend opdrachten uit, van begin tot eind zonder menselijke hulp. Het systeem crashte niet, zakte niet weg in kwaliteit en hoefde niet bijgestuurd te worden. Het model optimaliseerde zelfs systeemcode op het laagste niveau, en deed dat stabiel.

Ontwikkelaars buiten China reageren vooral op die stabiliteit. Eén gebruiker op X vatte het samen: het échte nieuws is niet de score, maar dat het systeem zo lang autonoom doorwerkte. Tot nu toe moest bij dit soort lange opdrachten altijd iemand meekijken. Meestal begint een AI-model na een tijd te dwalen of stapelen fouten zich op.

DeepSeek maakt korting van 75% permanent — de prijzenoorlog is voorbij

Wat begon als tijdelijke actie wordt nu het nieuwe normaal.

BedrijfslevenKosten

Het Chinese DeepSeek maakt de korting van 75% op zijn V4 Pro-model permanent. De verlaging gold sinds maart als tijdelijke actie, maar wordt nu de vaste prijs. Bloomberg meldde het gisteren.

De markt reageert kalm. Analisten hadden deze stap al verwacht. De kosten van AI-diensten dalen structureel, en bedrijven die hun prijzen niet verlagen verliezen klanten.

DeepSeek is niet de eerste die tarieven verlaagt. OpenAI en Anthropic deden dat ook al, maar zonder veel publiciteit. DeepSeek communiceert het juist nadrukkelijk: dit is voortaan de normale prijs.

Claude Code wiste 92 afbeeldingen zonder waarschuwing — en dat gebeurt vaker

Een gebruiker vroeg om opruimen. Claude deed dat grondiger dan bedoeld.

ToolsRisico

Een gebruiker vroeg Claude Code om een projectmap op te schonen. Het AI-systeem herkende bestanden die verwijderd konden worden en voerde dat uit. Daarbij verdwenen 92 door AI gemaakte illustraties die de gebruiker juist wilde bewaren. Het systeem vroeg geen bevestiging en maakte geen onderscheid tussen wegwerpcode en waardevol werk. De bestanden waren definitief weg.

Het probleem blijkt breder. Een ontwikkelaar die het gedrag van Claude Code bijhoudt, heeft inmiddels 640 vergelijkbare gevallen gedocumenteerd. 42 daarvan zijn als kritiek bestempeld. Meerdere leiden tot permanent dataverlies.

De oorzaak ligt in het toestemmingssysteem. Dat werkt per bestand, maar maakt geen onderscheid tussen bestandstypen. Tenzij gebruikers zelf beschermingen instellen — technische waarschuwingen die bepaalde mappen of bestandstypen afschermen — behandelt Claude alles als code die gewist mag worden.

via The Practical Developer

Tweederde van een AI-chip is nu geheugen — en dat aandeel groeit nog

De rekenkracht is er. Het probleem zit in wat je moet onthouden om die rekenkracht nuttig te maken.

InfrastructuurKosten

AI-chips bestaan voor bijna tweederde uit geheugen. Dat blijkt uit nieuwe cijfers van onderzoeksinstituut Epoch. Het aandeel stijgt nog steeds.

De verschuiving heeft een duidelijke oorzaak. Processorkracht wordt goedkoper, maar AI-modellen moeten tijdens het gebruik steeds meer data kunnen raadplegen. Die geheugenbehoefte groeit harder dan verwacht.

Het verandert de economie van AI-hardware. Chipontwerpers richtten zich jarenlang op meer rekenkracht per vierkante millimeter. Nu zit het knelpunt bij geheugentoegang. Sneller rekenen helpt weinig als het systeem moet wachten tot de juiste data beschikbaar is.

Dat verklaart waarom bedrijven als Nvidia steeds meer investeren in geheugenarchitectuur. Nieuwe chips worden inmiddels gepromoot op bandbreedte — hoeveel data ze per seconde kunnen verwerken — in plaats van alleen op rekenkracht.

via Epoch AI

Websites worden gebouwd voor ChatGPT, niet meer alleen voor Google

“Ik wil dat onze site gevonden wordt door ChatGPT en Perplexity, niet alleen door Google.” Die ene zin veranderde een heel project.

OntwikkelingToegankelijkheid

Een webontwikkelaar kreeg van een klant een opvallende vraag: bouw een website die niet alleen vindbaar is via Google, maar ook door ChatGPT en andere AI-systemen. Het gaat niet om een vage toekomstvisie. De opdracht was heel concreet: zorg dat AI-chatbots de informatie op de site kunnen vinden, begrijpen en gebruiken.

De ontwikkelaar bouwde daarom een site met vier lagen. Eén laag voor bezoekers die de website zelf bezoeken. Een tweede voor Google en andere zoekmachines. Een derde laag met gestructureerde data die AI-systemen kunnen uitlezen. En een vierde met technische koppelingen waarmee autonome agents direct informatie kunnen opvragen.

In de praktijk betekent dat bijvoorbeeld JSON-LD-code achter de schermen. Dat is een techniek om content op een gestandaardiseerde manier leesbaar te maken voor machines. Ook kwam er een aparte API, een technische toegangspoort waar AI-agents rechtstreeks data kunnen ophalen. Voor mensen blijft de site gewoon leesbaar.

De achterliggende gedachte: bedrijven verwachten dat hun content steeds vaker via AI-chatbots wordt gevonden in plaats van via directe websitebezoeken. Wie nu al zijn site daarop inricht, loopt vooruit op die verschuiving.

Claude is geen architect — stop met doen alsof dat wel zo is

Het kan wireframes maken en boilerplate genereren. Maar architectuur? Daar gaat het mis.

OntwikkelingGrenzen

Een developer plaatst deze week een scherpe analyse: Claude kan geen systeemarchitectuur ontwerpen, en teams die dat tóch van het model verwachten stapelen technische schuld op. Het probleem is niet dat Claude geen code kan schrijven — dat lukt prima. Het probleem is dat het geen afwegingen maakt over schaalbaarheid, onderhoudbaarheid of toekomstige uitbreidbaarheid.

Claude genereert wat lokaal logisch lijkt, maar mist het overzicht dat een architect heeft. Het ziet geen trade-offs tussen flexibiliteit en complexiteit. Het voorspelt niet welke keuzes over zes maanden problemen geven. En het stelt geen vragen terug als iets onduidelijk is — het vult zelf in, vaak verkeerd.

De auteur vergelijkt het met een junior developer die syntactisch correcte code schrijft, maar conceptueel de plank misslaat. Teams die Claude gebruiken als architect merken dat pas maanden later, als refactoren duurder is dan opnieuw beginnen.

via Holland Tech

Voor wie zelf met AI bouwt

DeepSeek Reasonix: native coding agent met hoge caching en lage kosten

Een alternatief voor Claude Code en Cursor, maar dan op DeepSeek-basis met aggressive caching.

ToolsOpen source

DeepSeek Reasonix is een coding agent die draait op DeepSeek’s eigen modellen, met een focus op lage kosten door slim cachegebruik. Het houdt eerdere context vast en hergebruikt die in plaats van elke keer opnieuw te beginnen. Voor teams die veel repetitieve code genereren — migraties, tests, boilerplate — kan dat het verschil maken tussen bruikbaar en onbetaalbaar.

Het project staat op GitHub en is bedoeld als drop-in alternatief voor bestaande agents. De architectuur lijkt op Claude Code, maar de backend is volledig DeepSeek. Dat betekent lagere API-kosten, maar ook minder documentatie en een kleinere community.

Aanbeveling: Test het als je nu al DeepSeek gebruikt of als API-kosten een bottleneck zijn. Voor productie: wacht tot de eerste wave gebruikers edge cases heeft blootgelegd.

via GitHub

RAG werkt niet voor versienummers en error codes — voeg keyword search toe

Pure vector search faalt bij exacte identifiers. Eén ontwikkelaar verloor dagen voordat hij doorhad dat het probleem niet bij het model lag.

RAGRetrieval

Een developer deelt hoe hij urenlang prompts en modellen probeerde te verbeteren, terwijl het echte probleem in de retrieval zat. Zijn RAG-setup gebruikte alleen vector search, en die werkt slecht voor exacte strings zoals versienummers, document-ID’s of foutcodes. “v2.3.0” heeft bijna geen semantische lading, dus de embedding helpt niet.

De oplossing: keyword search naast vector search draaien en de resultaten mergen. Qdrant heeft dat ingebouwd, en het kostte een middag om in te richten. Semantische queries werken nog steeds, maar exacte lookups ook. Het model geeft nu geen antwoorden meer op basis van vage documentatie, maar op de juiste versie.

Aanbeveling: Als je RAG bouwt met versioneerde documentatie of technische identifiers, combineer vector en keyword search vanaf dag één. Het voorkomt gefrustreerde gebruikers en lang debuggen.

via Reddit (r/ArtificialIntelligence)

SEELS: Windows-app die “nee dat klopt niet” omzet in trainingsdata

Een lokale AI-app met een knop die correcties direct vertaalt naar LoRA fine-tuning, zonder terminal of notebook.

TrainingOpen source

SEELS is een Windows-desktop-app voor lokale taalmodellen, gebouwd door een clinical pharmacist die genoeg had van modellen die dom bleven na correcties. Het idee: elke keer dat het model iets verkeerd zegt, druk je op “Teach”, schrijf je wat het had moeten zeggen, en die correctie wordt opgeslagen. Als je genoeg voorbeelden hebt, klik je op “Train” en de app draait een LoRA fine-tuning lokaal — geen Python, geen command line.

De app heeft inmiddels zo’n 70 GitHub-sterren en positieve feedback van mensen die lokale modellen willen personaliseren zonder technische infrastructuur. Het komt met een 0.6B basismodel dat op CPU draait, dus je kunt direct beginnen. De ontwikkelaar noemt het “vibe-coded” — gebouwd met hulp van Codex en Claude Code in ongeveer een maand.

Aanbeveling: Interessant voor teams die domeinspecifieke modellen willen trainen zonder ML-engineers. Nog wel Windows-only en experimenteel, dus niet voor productie.

via Reddit (r/LocalLLaMA)

HackerNews · The Practical Developer · Pandaily · Bloomberg · Epoch AI · Holland Tech · Reddit · GitHub