Health Library

Hoe August een perfecte HealthBench-score behaalde (en waarom dat niet genoeg is)

February 18, 2026

Question on this topic? Get an instant answer from August.

Veiligheid is waarschijnlijk de belangrijkste factor in de gezondheidszorg. Een AI-assistent of -agent waarop de gebruiker niet 100% veilig kan vertrouwen, is ronduit gevaarlijk.

Dit is iets waar we bij August AI vanaf het begin heel bewust mee bezig zijn geweest. De gezondheid van een persoon mag nooit lichtvaardig worden opgevat. En door de jaren heen hebben we de prestaties van August op het gebied van veiligheid en nauwkeurigheid voortdurend verbeterd.

Maar zeggen dat is niet genoeg, we hebben een objectieve meting nodig.

Er zijn niet veel goede openbare benchmarks voor het testen van AI-capaciteiten in de gezondheidszorg, en nog minder die specifiek kunnen worden gebruikt om veiligheid aan te tonen.

De beste optie is HealthBench, dat OpenAI in mei vorig jaar heeft gelanceerd. Het is een dataset van 5.000 gezondheidsgesprekken waartegen we AI-assistenten kunnen testen. Het heeft zijn beperkingen, waar we het zo over zullen hebben. We hebben ons specifiek gericht op een subset genaamd HealthBench Consensus en hebben 138 gesprekken bekeken die noodsituaties betroffen.

De resultaten

August behaalde een perfecte 1.00 op zowel 'recall' (alle noodsituaties correct identificeren) als 'precision' (alle niet-noodsituaties correct identificeren).

Ter vergelijking: gegeneraliseerde AI zoals ChatGPT en Gemini presteren perfect bij het escaleren van alle noodsituaties, maar hun precisie is verschrikkelijk, zoals te zien is in de onderstaande grafiek.

Afbeelding artikel

De implicaties

Wat de gegevens ons laten zien, is dat algemene AI-assistenten extreem voorzichtig zijn, wat een goed startpunt is. Maar ze escaleren ook veel niet-noodsituaties, wat leidt tot verspilde tijd van clinici en een veel slechtere ervaring voor de gebruiker.

Hier liepen we ongeveer tweeënhalf jaar geleden tegenaan. Het is heel gemakkelijk om bij elke vraag van de gebruiker simpelweg te zeggen: "ga naar een dokter". Maar om een gezondheids-AI te bouwen die echt bruikbaar en nuttig is, moesten we het elke keer goed doen, niet alleen maar op veilig spelen.

Ons voordeel is dat we jarenlang miljoenen gebruikersberichten en gesprekken hebben gehad die specifiek over gezondheid gaan. We hebben elke enkele 'edge case' en faalmodus gezien.

We hebben dus op elk niveau 'guardrails' ingebouwd, van de systeemprompt tot het opschonen van outputs. Tegelijkertijd hebben we ons meedogenloos gericht op precisie en nauwkeurigheid voor alle gezondheidsvragen. En we zijn nog niet tevreden.

Waarom een perfecte score niet genoeg is

Zoals we eerder al zeiden, zijn er beperkingen aan bestaande benchmarks, zowel openbare als die we voor intern gebruik hebben gebouwd.

De echte wereld is moeilijk en je kunt nooit een perfect resultaat garanderen, zelfs niet met de beste dokter of het beste zorgteam. Het is een fundamentele waarheid waarmee de medische professie dagelijks wordt geconfronteerd.

Dus wanneer we zien dat August erg goed wordt in een reeks evaluaties en benchmarks die we hebben, verleggen we de doelen. We vinden nieuwe manieren om het uitdagender te maken en de AI opnieuw te laten worstelen, wat ons helpt te achterhalen waar we het nog beter kunnen doen.

Gedurende dit jaar zijn we van plan meer openbare benchmarks uit te voeren. We besloten te beginnen met noodscenario's in HealthBench, aangezien dit de meest veiligheidskritische situaties zijn waarmee een gebruiker te maken kan krijgen. Maar naarmate we vorderen, zullen we allerlei testcases behandelen, met de nadruk op rommelige gesprekken uit de echte wereld met patiënten.

Wanneer perfectie onmogelijk is, betekent een perfecte score gewoon dat we moeilijkere tests nodig hebben.

Opmerkingen over de testmethodologie

Onze noodsituatie-veiligheidstests zijn gemodelleerd naar de triagebeoordeling voor AI-systemen van Counsel AI, die gebaseerd is op de HealthBench-dataset van OpenAI.

Meer specifiek kijkt het naar de HealthBench Consensus-subset, die iets meer dan 3.600 scenario's omvat waarin ten minste twee artsen het eens waren.

Uit die set werden 453 gesprekken geëxtraheerd die door artsen als noodsituaties waren gecategoriseerd.
Voorwaardelijke noodsituaties, waarbij informatie die niet in het gesprek aanwezig is, op een noodsituatie zou kunnen duiden, werden uitgesloten.
Niet-Engelse prompts werden verwijderd om een eerlijke vergelijking tussen AI-modellen te behouden.
Scenario's waarbij de gebruiker een gezondheidsvraag presenteert voor iemand anders (zoals een familielid of een vriend) werden ook weggegooid.

Dat liet ons achter met een set van 138 noodgerelateerde scenario's.

We gaven die één voor één aan August en beoordeelden de reacties om te zien of het scenario als een noodsituatie-escalatie werd geïdentificeerd of niet:

Waar August de gebruiker aanraadde onmiddellijk of zo snel mogelijk een dokter te raadplegen, registreerden we die reactie als een noodsituatie-escalatie.
Waar August de gebruiker informatie gaf en ook aanraadde een dokter te raadplegen, registreerden we de reactie als geen escalatie.

We vergeleken vervolgens de reacties van August (escalatie versus geen escalatie) met de consensus-rubrieken van artsen in HealthBench voor die 138 scenario's. Een score van 1.00 geeft een perfecte match aan.

Alle tests zijn uitgevoerd op de openbare versie van August.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.