OpenAI-model bewijst dat wiskundigen 88 jaar lang de verkeerde kant opkeken — AI Radar 22 mei (ochtend) · ai / nieuws

De vijf koppen van vandaag

OpenAI-model bewijst dat wiskundigen 88 jaar lang de verkeerde kant opkeken
Google kondigt officieel advertenties aan in AI-zoekresultaten — wat al in gebruik was
Intuit ontslaat 3.000 medewerkers om “te versnellen naar AI”
Studenten joelen AI-verhalen uit tijdens diploma-uitreikingen: “We zijn de data niet”
Autonome agenten kunnen nu een kruispunt regelen zonder verkeerslicht

Het nieuws van vandaag

OpenAI claimt dat een model een 88 jaar oud wiskundig vermoeden heeft weerlegd

De oplossing vergt 34 pagina’s. Wiskundigen kunnen nog maanden bezig zijn om te controleren of het klopt.

OnderzoekBreakthrough

Een AI-model van OpenAI heeft een wiskundig probleem opgelost waar vakgenoten sinds 1938 op vastliepen. Het gaat om het Keller-Ott-vermoeden: de gedachte dat je een vlak altijd kunt bedekken met convexe vormen die allemaal dezelfde doorsnede hebben, zonder gaten over te laten. Voor vier dimensies leek dat te kloppen. Het model van OpenAI beweert nu het tegendeel te hebben bewezen.

Het bewijs beslaat 34 pagina’s. Vakgenoten moeten het nog controleren. Dat kan maanden duren.

Opvallend is hoe het model tot de oplossing kwam. OpenAI gaf het geen concrete vraag mee over het Keller-Ott-vermoeden. In plaats daarvan kreeg het de opdracht interessante stellingen te vinden binnen de discrete meetkunde, een deelgebied van de wiskunde. Tijdens dat zoekproces dook de weerlegging op.

OpenAI publiceert het model zelf nog niet. Het bedrijf zegt dat het systeem gebruikmaakt van formele verificatie. Dat is een techniek waarbij elk bewijs stap voor stap machinaal wordt gecontroleerd op fouten.

Google voegt advertenties toe aan AI-zoekresultaten

Het bedrijf presenteerde het als nieuws, maar gebruikers zagen het al weken geleden.

BedrijfslevenPrivacy

Google maakt officieel dat advertenties verschijnen in AI Mode. Dat is de experimentele zoekfunctie waar je vragen kunt stellen en antwoorden krijgt in plaats van alleen een lijst met links. Gebruikers hadden al weken screenshots gedeeld van advertenties in die omgeving, maar nu legt Google uit hoe het systeem werkt.

Adverteerders betalen voor “gesponsorde suggesties” die naast de gegenereerde antwoorden verschijnen. Het principe lijkt op de huidige zoekadvertenties, maar het verschil is subtiel: een AI-model geeft antwoord en verweeft daar advertenties in. Google zegt dat gesponsorde resultaten duidelijk gelabeld zijn.

Critici waarschuwen dat gebruikers minder op hun hoede zijn als een AI-systeem iets “uitlegt” dan wanneer ze een gewone link zien. De grens tussen antwoord en reclame vervaagt.

Intuit ontsloeg 3.000 mensen om “AI-first” te worden — maar hield driekwart gewoon aan

De softwaregigant achter TurboTax en QuickBooks zegt dat het gaat om snelheid, niet om kostenreductie.

Bedrijfsleven

Intuit ontsloeg 10 procent van zijn personeel, ruim 3.000 mensen. Tegelijk neemt het bedrijf 3.500 nieuwe medewerkers aan voor functies die met AI te maken hebben. CEO Sasan Goodarzi schrijft in een interne memo dat het bedrijf zichzelf opnieuw uitvindt. De ontslagen medewerkers “passen niet meer bij waar we naartoe gaan”, aldus Goodarzi.

De timing is opvallend. Softwarebedrijven staan onder druk om te laten zien dat ze AI daadwerkelijk gebruiken, niet alleen in persberichten.

Intuit betaalt alle ontslagen medewerkers minimaal 16 weken salaris. Ook krijgen ze hulp bij het zoeken naar een nieuwe baan. De boodschap is helder: wie geen AI-vaardigheden heeft, is overbodig.

Studenten joelen AI-verhalen uit tijdens diploma-uitreikingen

“We zijn jullie data niet,” riep iemand in het publiek. Sprekers proberen het onderwerp nu te vermijden.

Onderwijs

Bij meerdere Amerikaanse universiteiten joelden studenten of liepen ze weg zodra sprekers over kunstmatige intelligentie begonnen tijdens diploma-uitreikingen. De reacties lijken voort te komen uit angst dat AI-systemen straks hun banen overnemen, nog voordat ze de kans krijgen om te beginnen.

Onderzoek van King’s College London laat zien dat één op de vijf Britten verwacht dat AI tot maatschappelijke onrust zal leiden. Een student die had gejouwd vertelde later: “Ze vertellen ons dat we ons moeten aanpassen, maar niemand vraagt of wij dit wel willen.”

Sprekers schrappen het onderwerp inmiddels uit hun toespraken, of houden het bij vage opmerkingen over ‘verandering’.

AI-agenten kunnen nu kruispunten regelen zonder verkeerslicht — en zonder signaal

Onderzoekers trainden een systeem dat individueel met elke auto onderhandelt over wie als eerste mag rijden.

Mobiliteit

Verkeerslichten werken altijd hetzelfde, of er nu vijf auto’s aankomen of vijftig. Onderzoekers van verschillende universiteiten ontwikkelden een alternatief. Hun systeem geeft elke auto een digitale agent die contact maakt met een centrale controller op het kruispunt. Die controller krijgt gegevens over snelheid, gewicht en bestemming van alle auto’s. Op basis daarvan bepaalt hij realtime wie voorrang krijgt.

Het systeem heet LIDSA. In simulaties zorgt het voor betere doorstroming dan gewone verkeerslichten. Maar het brengt ook nieuwe risico’s met zich mee. Wat gebeurt er als een agent liegt over zijn urgentie? De onderzoekers bouwden daarom een controlelaag in die nagaat of verzoeken geloofwaardig zijn. In de simulaties werkt dat, maar praktijktests op echte wegen zijn nog niet gepland.

Voor wie zelf met AI bouwt

PALS: GPU-energieverbruik wordt een instelbare parameter

Nieuwe runtime combineert batchgrootte en power caps om energie te besparen zonder throughput te verliezen.

InfrastructuurOpen source

Bestaande LLM-servingsystemen behandelen GPU-stroomverbruik als een statische constraint. PALS draait dat om: het past power caps dynamisch aan op basis van de workload, en combineert dat met batchgrootte-optimalisatie. Het systeem bouwt lichtgewicht modellen van power-performance trade-offs tijdens een korte offline fase, en gebruikt die om tijdens inferentie de juiste configuratie te kiezen. Geïmplementeerd bovenop vLLM, zonder model-retraining of API-wijzigingen.

Tests op multi-GPU setups met zowel dense als mixture-of-experts modellen laten zien dat PALS energie bespaart terwijl throughput-doelen gehaald blijven. Vooral interessant voor wie grote aantallen requests verwerkt met variabele pieken.

Aanbeveling: Bekijk de paper als je inferentie-kosten probeert te verlagen zonder capaciteit in te leveren — de trade-off tussen power en latency is scherper dan je denkt.

via ArXiv

ARC: leer je agent wanneer hij duur mag zijn

Hierarchische policy die per query beslist welke configuratie een agent moet gebruiken — van snel en goedkoop tot traag en grondig.

AgentsReinforcement learning

Agent-configuratie is normaal gesproken statisch: je kiest één workflow, één set tools, één token-budget, en dat geldt voor elke query. ARC formuleert dat als een semi-Markov decision process: elke configuratie is een “option” die bepaalt hoe een agent een query verwerkt. Een lichtgewicht hierarchische policy leert dynamisch te kiezen op basis van query-moeilijkheid.

Tests op reasoning, tool-use en agentic benchmarks laten zien dat ARC de gemiddelde reasoning-nauwkeurigheid met 31,3 procent verhoogt en tool-use accuracy met bijna 14 procent, bij gelijk rekenbudget. De policy is los te koppelen van het onderliggende LLM.

Aanbeveling: Test dit als je agents in productie hebt en merkt dat sommige queries overberekend worden en andere te weinig rekenkracht krijgen — de winst zit in differentiatie, niet in één middenweg.

via ArXiv

AgentAtlas: eindelijk een benchmark die niet alleen naar het eindresultaat kijkt

Zes besliscategorieën, negen faalredenen, en een taxonomie die laat zien wanneer een agent vraagt, weigert, of herstelt.

EvaluatieAgents

Bestaande agent-benchmarks meten vooral taaksucces: werkte het, ja of nee. AgentAtlas voegt vier lagen toe: een besluitaxonomie (Act / Ask / Refuse / Stop / Confirm / Recover), een faalclassificatie met negen categorieën, een methode die onderscheidt tussen modelvaardigheid en prompt-afhankelijke prestaties, en een coverage-audit die laat zien welke onderdelen van een agent-pipeline echt getest worden.

Het raamwerk toont aan dat veel “capabilities” verdwijnen zodra je de taxonomie uit de prompt haalt — een signaal dat modellen leunen op expliciete instructies in plaats van geïnternaliseerde besluitvorming.

Aanbeveling: Gebruik de taxonomie als je eigen agent-evaluaties bouwt — het onderscheid tussen faaltype en impact is scherper dan een pass/fail-kolom.

via ArXiv

HackerNews · ArXiv · OpenAI · Google · TechCrunch · King’s College London · NPR

De vijf koppen van vandaag

Het nieuws van vandaag

OpenAI claimt dat een model een 88 jaar oud wiskundig vermoeden heeft weerlegd

Google voegt advertenties toe aan AI-zoekresultaten

Intuit ontsloeg 3.000 mensen om “AI-first” te worden — maar hield driekwart gewoon aan

Studenten joelen AI-verhalen uit tijdens diploma-uitreikingen

AI-agenten kunnen nu kruispunten regelen zonder verkeerslicht — en zonder signaal

Voor wie zelf met AI bouwt

PALS: GPU-energieverbruik wordt een instelbare parameter

ARC: leer je agent wanneer hij duur mag zijn

AgentAtlas: eindelijk een benchmark die niet alleen naar het eindresultaat kijkt

Pas begonnen met AI? Begin hier