AI neemt medische klachten van vrouwen minder serieus

Geplaatst op
28/8/2025
door
Gert-Jan Bloem

Recent onderzoek heeft aangetoond dat AI medische klachten van vrouwen systematisch milder en minder urgent omschrijft dan identieke klachten van mannen. Het risico hiervan is dat vrouwen niet of verkeerd worden doorverwezen en daardoor niet de juiste behandeling ontvangen.

In dit onderzoek, gepubliceerd in augustus 2025, werden grote taalmodellen (LLM’s) op ‘gender bias’ getest door in 617 dossiers van ouderen uit de langdurige zorg het geslacht te laten wijzigen en deze te laten samenvatten door verschillende LLM’s. Er is daarbij gekeken naar Meta's Llama 3 en Google Gemma (twee geavanceerde, open-source modellen uit 2024), evenals T5 en BART (twee benchmarkmodellen van Meta en Google uit 2019).

Kerninzichten uit het onderzoek

  • De resultaten bleken sterk te verschillen tussen de taalmodellen. Llama 3 liet geen significante ‘genderbias’ zien, T5 en BART soms en Gemma het meest.
  • De ‘genderbias’ bij Gemma zat met name in de mate waarin er nadruk gelegd werd op de fysieke en mentale gezondheidsproblemen van de ouderen.
  • Bij mannen lag er meer focus op hun zorgbehoeften dan bij vrouwen, doordat er voor het omschrijven van dezelfde klachten bij mannen directer taalgebruik gehanteerd werd.
  • Dit kan ertoe leiden dat dezelfde zorgbehoefte bij vrouwen vaker wordt genegeerd en zij niet tijdig de juiste behandeling krijgen.

Dit onderzoek laat zien dat AI-modellen op dit moment niet beter kunnen functioneren dan de data waarmee ze zijn getraind. Medisch onderzoek is namelijk meestal gericht op mannen en het is een bekend probleem dat vrouwen zich vaak niet begrepen voelen door artsen. Sterker nog, uit een ander onderzoek is gebleken dat 80% van de patiënten met onverklaarbare klachten een vrouw is.

Bij het gebruik van AI-modellen is het dus belangrijk om te beseffen dat veel vooroordelen uit de praktijk worden meegenomen in het trainen van de AI-modellen en deze dus een rol kunnen spelen in de output.

Hanteer deze randvoorwaarden bij de inzet van AI

  • Kies het AI-model niet op reputatie, maar op gedrag: bekijk dit per use-case en kies het model dat in jouw data de minste vooroordelen laat zien (in dit onderzoek: Llama 3).
  • Test vooroordelen vóór livegang: test modellen op mogelijke bias met scenario’s waarin bijvoorbeeld alleen geslacht of etniciteit varieert en controleer op systematische verschillen. De code hiervoor is beschikbaar gesteld in GitHub.
  • Mens-in-de-loop: laat AI-samenvattingen controleren en ondertekenen door professionals, en bewaar prompts en output voor audits en casusbesprekingen.
  • Continue monitoring: hervalueer modellen na updates (zoals GPT5). Bias kan dan flink verergerd of verminderd zijn.
  • Dataminimalisatie: beperk of anonimiseer gevoelige data in prompts om te voorkomen dat vertrouwelijke info in modeltraining belandt.

Conclusie: AI functioneert het best met de hulp van mensen

Het is een feit dat AI veel potentieel heeft en het gaat gegarandeerd oplossingen bieden voor uitdagingen in de gezondheidszorg. Maar blijf te allen tijde kritisch en vraag jezelf continu af voor welke taken van zorgprofessionals AI geschikt is ter ondersteuning om hun werk makkelijker te maken. Wees daarbij scherp op de vooroordelen van AI, zet AI in als een tweede paar ogen en borg dat beslissingen bij mensen liggen, want AI zal nooit de menselijke kant van de zorg vervangen.

Bron: BMC Medical Informatics & Decision Making