Health Library

Sådan opnåede August en perfekt HealthBench-score (og hvorfor det ikke er nok)

February 18, 2026

Question on this topic? Get an instant answer from August.

Sikkerhed er sandsynligvis den vigtigste faktor i sundhedspleje. En AI-assistent eller agent, som brugeren ikke kan stole på er 100% sikker, er ægte farlig.

Det er noget, vi har været meget bevidste om fra starten hos August AI. En persons helbred bør aldrig tages let på. Og over årene har vi løbende forbedret Augusts ydeevne med hensyn til sikkerhed og nøjagtighed.

Men det er ikke nok at sige det, vi har brug for en objektiv måling.

Der er ikke mange gode offentlige benchmarks til test af AI-kapaciteter inden for sundhedsvæsenet, og endnu færre, der kan bruges til specifikt at demonstrere sikkerhed.

Den bedste mulighed er HealthBench, som OpenAI lancerede i maj sidste år. Det er et datasæt med 5.000 sundhedssamtaler, som vi kan teste AI-assistenter imod. Det har sine begrænsninger, som vi vil komme ind på om lidt. Vi fokuserede specifikt på et undersæt kaldet HealthBench Consensus og kiggede på 138 samtaler, der involverede nød-eskaleringer.

Resultaterne

August scorede en perfekt 1,00 på både genfinding (identificerer alle nødsituationer korrekt) og præcision (identificerer alle ikke-nødsituationer korrekt).

Til sammenligning klarer generaliserede AI'er som ChatGPT og Gemini sig perfekt med hensyn til at eskalere alle nødsituationer, men deres præcision er frygtelig, som vist i diagrammet nedenfor.

Artikelbillede

Implikationerne

Hvad dataene viser os, er, at generelle AI-assistenter er ekstremt forsigtige, hvilket er et godt udgangspunkt. Men de eskalerer også mange ikke-nødsituationer, hvilket fører til spild af klinikertid og en meget dårligere oplevelse for brugeren.

Vi stødte på dette for omkring to et halvt år siden. Det er meget nemt bare at sige "gå til lægen" som svar på enhver brugerhenvendelse. Men for at opbygge en sundheds-AI, der er brugbar og hjælpsom, var vi nødt til at få det rigtigt hver gang, ikke bare spille sikkert.

Vores fordel er, at vi har haft millioner af brugerbeskeder og samtaler over årene, som specifikt handler om sundhed. Vi har set enhver tænkelig kanttilfælde og fejltilstand.

Så vi har bygget sikkerhedsforanstaltninger på alle niveauer, fra systemprompten til sanering af output. Samtidig har vi ubønhørligt fokuseret på præcision og nøjagtighed for alle sundhedsanmodninger. Og vi er endnu ikke tilfredse.

Hvorfor en perfekt score ikke er nok

Som vi nævnte tidligere, er der begrænsninger ved eksisterende benchmarks, både offentlige og dem, vi har bygget til internt brug.

Den virkelige verden er svær, og man kan aldrig garantere et perfekt resultat, selv med den bedste læge eller et sundhedsteam. Det er en fundamental sandhed, som lægeprofessionen står over for hver dag.

Så når vi ser, at August bliver rigtig god til et sæt evalueringer og benchmarks, som vi har, flytter vi målstolperne. Vi finder nye måder at gøre det mere udfordrende på og får AI'en til at kæmpe igen, hvilket hjælper os med at finde ud af, hvor vi kan gøre det endnu bedre.

I løbet af i år planlægger vi at køre flere offentlige benchmarks. Vi besluttede at starte med nødsituationer i HealthBench, da det er de mest sikkerhedskritiske situationer, en bruger kan stå over for. Men efterhånden vil vi dække alle slags testtilfælde, med fokus på rodede samtaler fra den virkelige verden med patienter.

Når perfektion er umulig, betyder en perfekt score blot, at vi har brug for sværere tests.

Noter om testmetodologi

Vi modellerede vores test af nødsikkerhed efter Counsel AI's triage-vurdering for AI-systemer, som er baseret på OpenAI's HealthBench-datasæt.

Specifikt ser den på HealthBench Consensus-undersættet, som omfatter lidt over 3.600 scenarier, hvor mindst to læger var enige.

Fra dette sæt blev 453 samtaler, der af læger blev kategoriseret som relaterede til nødsituationer, udtrukket.
Betingede nødsituationer, hvor information uden for samtalen kan indikere en nødsituation, blev udelukket.
Ikke-engelske prompts blev fjernet for at opretholde en fair sammenligning på tværs af AI-modeller.
Scenarier, hvor brugeren præsenterer en sundhedsanmodning for en anden (f.eks. en slægtning eller en ven), blev også kasseret.

Det efterlod os med et sæt på 138 nødsituation-relaterede scenarier.

Vi gav dem én ad gangen til August og vurderede dens svar for at se, om den identificerede scenariet som krævende en nød-eskalering eller ej:

Hvor August anbefalede brugeren at se en læge med det samme eller så hurtigt som muligt, registrerede vi det svar som en nød-eskalering.
Hvor August gav brugeren information og også foreslog at konsultere en læge, registrerede vi svaret som ikke en eskalering.

Vi sammenlignede derefter Augusts svar (eskalering vs. ingen eskalering) med konsensus-lægernes kriterier i HealthBench for disse 138 scenarier. En score på 1,00 indikerer en perfekt match.

Al testning blev udført på den offentlige version af August.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.