AI Radar Nederland AI Radar

AI-systemen kunnen bedrijfsregels · Grote taalmodellen kunnen nu medische · AI-toetsbeoordelaars maken fouten

NL AI Radar 15 april: Scholen krijgen AI-assistenten die toetsen nakijken en wiskundeopgaven aanpassen aan leerlingen; Grote taalmodellen kunnen medische…

AI Pulse Nieuwsredactie 6 min leestijd

Nederland AI Briefing

Vandaag in 3 bullets

  • Scholen krijgen AI-assistenten die toetsen nakijken en wiskundeopgaven aanpassen aan leerlingen
  • Grote taalmodellen kunnen medische patiëntendossiers nu sneller analyseren zonder speciale training
  • Onderzoekers waarschuwen dat AI-systemen die beslissingen nemen verborgen regels kunnen overtreden

Vandaag draait het vooral om AI die werkt met persoonsgegevens in het onderwijs en de zorg, en nieuwe risico’s bij automatisering.

Welke AI-veranderingen er nu aankomen

  • AI schuift van experiment naar dagelijks gebruik in scholen. Nederlandse docenten krijgen nu toegang tot systemen die wiskundeopgaven automatisch personaliseren en toetsen nakijken. Uit Amerikaans onderzoek blijkt dat zowel leraren als leerlingen deze AI-gegenereerde opdrachten willen aanpassen, vooral de real-world context.

  • Gezondheidsdossiers worden toegankelijk voor standaard AI-modellen. Door medische codes te vertalen naar gewone taal kunnen algemene taalmodellen patiëntgegevens analyseren zonder toegang tot specifieke medische trainingdata. Dit verlaagt de drempel voor ziekenhuizen die AI willen inzetten.

  • Onzichtbare beleidsovertredingen worden een probleem. AI-systemen die zelfstandig handelingen uitvoeren kunnen bedrijfsregels overtreden zonder dat ze weten dat die regels bestaan, omdat belangrijke informatie ontbreekt bij het nemen van beslissingen.

Relevant voor organisaties en beleid

AI-systemen kunnen bedrijfsregels overtreden zonder het te weten

beleid | compliance

In het kort: AI-agents kunnen handelingen uitvoeren die wel technisch en juridisch correct zijn, maar toch bedrijfsregels schenden omdat ze niet weten welke regels gelden.

Wat er gebeurde: Onderzoekers lanceerden PhantomPolicy, een testset die laat zien dat AI-systemen regelmatig intern beleid overtreden. Het probleem: de informatie die nodig is om te checken of iets mag (zoals klantgegevens of contractvoorwaarden) ontbreekt vaak bij het moment van beslissen. Zelfs geavanceerde modellen zoals GPT-4 en Claude scoren slecht op deze test.

Wat dit betekent in Nederland: Voor Nederlandse organisaties die AI-agents inzetten voor klantenservice, financiële processen of HR betekent dit dat systemen AVG-regels, contractafspraken of internerichtlijnen kunnen schenden zonder dat het direct opvalt.

Aanbeveling: Check bij elk AI-systeem dat beslissingen neemt of het toegang heeft tot alle informatie die nodig is om je interne regels te volgen, niet alleen tot de technische handleiding.

Bron: arXiv


Grote taalmodellen kunnen nu medische dossiers lezen zonder speciale training

zorg | privacy

In het kort: Door medische codes om te zetten naar gewone taal kunnen standaard AI-modellen patiëntgegevens analyseren zonder toegang tot privacygevoelige trainingdata.

Wat er gebeurde: Onderzoekers toonden aan dat grote taalmodellen elektronische patiëntendossiers kunnen analyseren door gecodeerde informatie (zoals diagnoses en medicatie) te vertalen naar begrijpelijke tekst. Het model presteert even goed als gespecialiseerde systemen die wél getraind zijn op miljoenen medische dossiers. Tests op Amerikaanse en Britse datasets bevestigen dit.

Wat dit betekent in Nederland: Nederlandse ziekenhuizen kunnen nu AI-modellen gebruiken voor diagnostiek en risicoanalyse zonder eerst grote hoeveelheden patiëntgegevens te moeten delen met modelbouwers, wat AVG-risico’s vermindert.

Aanbeveling: Als je werkt met medische data, onderzoek of deze aanpak past bij jullie privacy-eisen voordat je investeert in dure gespecialiseerde modellen.

Bron: arXiv


AI-toetsbeoordelaars maken fouten bij handgeschreven natuurkunde-antwoorden

onderwijs

In het kort: AI kan toetsen nakijken, maar maakt nog te veel fouten bij complexe handgeschreven antwoorden met tekeningen en formules.

Wat er gebeurde: Onderzoekers lieten GPT-4o handgeschreven natuurkunde-toetsen van studenten beoordelen. Het model had moeite met variatie in handschrift, tekeningen en rekenwerk. De betrouwbaarheid hing sterk af van hoe gedetailleerd de beoordelingsrichtlijnen waren. Bij onduidelijke rubrieken scoorde AI slechter dan docenten.

Wat dit betekent in Nederland: Voor Nederlandse onderwijsinstellingen die overwegen AI in te zetten voor tentamenscorrectie betekent dit dat menselijke controle voorlopig nodig blijft, vooral bij vakken waar studenten rekenen en schetsen.

Aanbeveling: Test AI-correctiesystemen eerst op oude toetsen en vergelijk de scores met die van docenten voordat je ze breed inzet.

Bron: arXiv

Alleen relevant als je zelf met AI bouwt

Als je geen AI-systemen bouwt, kun je deze sectie overslaan; de rest van de briefing is voor jou.

Framework voor AI-agents die patiënten langdurig kunnen volgen

research | tools

In het kort: Nieuw framework helpt AI-assistenten om gezondheidsafspraken over langere tijd consistent op te volgen.

Wat er gebeurde: Onderzoekers ontwikkelden een architectuur waarmee AI-agents gebruikers kunnen helpen met terugkerende gezondheidstaken zoals symptoommonitoring of gedragsverandering. Het systeem houdt eerdere gesprekken bij, past zich aan en blijft consistent. Dit in tegenstelling tot huidige chatbots die elk gesprek opnieuw beginnen.

Voor teams die met AI bouwen: Als je werkt aan AI voor zorg, coaching of andere langetermijnbegeleiding, biedt dit framework een structuur om gesprekken samenhangend te houden zonder dat gebruikers telkens opnieuw moeten uitleggen wat er speelt.

Aanbeveling: Bekijk het framework als je langdurige gebruikersinteracties moet ondersteunen, vooral in zorg of welzijn.

Bron: arXiv


Nieuw systeem vermindert AI-hallucinaties met 97 procent

tools | research

In het kort: Door AI alleen antwoord te laten geven als het bewijs kan leveren, dalen foutieve antwoorden drastisch.

Wat er gebeurde: Onderzoekers ontwikkelden een extra laag die bovenop elk taalmodel werkt en controleert of het model zijn antwoord kan onderbouwen. Als dat niet kan, weigert het te antwoorden. In tests daalde het aantal hallucinaties met 97 procent en steeg de nauwkeurigheid significant. Het werkt met elk bestaand model en dezelfde data.

Voor teams die met AI bouwen: Als je modellen inzet in gereguleerde sectoren zoals financiën of rechtspraak, biedt dit een praktische manier om betrouwbaarheid te verhogen zonder modellen opnieuw te trainen.

Aanbeveling: Test deze aanpak naast RAG-oplossingen, vooral als je nu last hebt van onbetrouwbare antwoorden.

Bron: Reddit Deep Learning


Multi-agent systeem controleert nepnieuws met uitleg en bewijs

tools | research

In het kort: TRUST Agents gebruikt meerdere gespecialiseerde AI-agents om claims te checken en uit te leggen waarom iets waar of onwaar is.

Wat er gebeurde: Onderzoekers bouwden een systeem waarin verschillende AI-agents samenwerken: één haalt claims uit tekst, één zoekt bewijs, één vergelijkt de claim met dat bewijs, en één schrijt een leesbare uitleg met bronvermelding. Het systeem geeft geen simpel waar/onwaar-oordeel, maar legt uit waarom iets klopt of niet.

Voor teams die met AI bouwen: Als je werkt aan factchecking, compliance of contentmoderatie, biedt dit een blauwdruk voor uitlegbare verificatie met meerdere gespecialiseerde modellen.

Aanbeveling: Bekijk hoe specialisatie per agent de nauwkeurigheid verbetert als je nu één generiek model gebruikt voor complexe verificatietaken.

Bron: arXiv

Verder nog gezien

  • Platform maakt leervideo’s interactief met vragen op maat
  • Leraren en ChatGPT maken samen wiskundeopgaven voor leerlingen
  • AI-systeem simuleert patiënten met cognitieve beperkingen voor dokterstraining
  • Benchmark test AI-tools op vinden van fouten in auto-assistenten
  • Onderzoek naar backdoors in AI-agents die web browsen of tools gebruiken

Bronnenlijst

arXiv, arXiv, arXiv, arXiv, Reddit Deep Learning, arXiv, arXiv, arXiv, arXiv, arXiv, arXiv