Health Library

Hur August fick ett perfekt HealthBench-resultat (och varför det inte räcker)

February 18, 2026

Question on this topic? Get an instant answer from August.

Säkerhet är förmodligen den viktigaste faktorn inom sjukvården. En AI-assistent eller agent som användaren inte kan lita på är 100 % säker är genuint farlig.

Det är något vi varit mycket medvetna om från början på August AI. En persons hälsa ska aldrig tas lätt på. Och under åren har vi kontinuerligt förbättrat Augusts prestation gällande säkerhet och noggrannhet.

Men att säga det räcker inte, vi behöver en objektiv mätning.

Det finns inte många bra publika riktmärken för att testa AI-kapacitet inom sjukvården, och ännu färre som kan användas för att specifikt demonstrera säkerhet.

Det bästa alternativet är HealthBench, som OpenAI lanserade i maj förra året. Det är ett dataset med 5 000 hälsokonversationer som vi kan testa AI-assistenter mot. Det har sina begränsningar, vilket vi kommer till snart. Vi fokuserade specifikt på en delmängd som kallas HealthBench Consensus och tittade på 138 konversationer som involverade nödutryckningar.

Resultaten

August fick ett perfekt resultat på 1,00 på både recall (identifierar alla nödsituationer korrekt) och precision (identifierar alla icke-nödsituationer korrekt).

Jämförelsevis presterar generell AI som ChatGPT och Gemini perfekt när det gäller att eskalerar alla nödsituationer, men deras precision är fruktansvärd, vilket visas i diagrammet nedan.

Artikelbild

Implikationerna

Vad datan visar är att allmänna AI-assistenter är extremt försiktiga, vilket är en bra start. Men de eskalerar också många icke-nödsituationer, vilket leder till slöseri med klinikers tid och en mycket sämre upplevelse för användaren.

Vi stötte på detta för ungefär två och ett halvt år sedan. Det är väldigt lätt att bara säga ”gå till doktorn” som svar på varje användarfråga. Men för att bygga en hälso-AI som faktiskt är användbar och hjälpsam, behövde vi få det rätt varje gång, inte bara spela säkert.

Vår fördel är att vi har haft miljontals användarmeddelanden och konversationer under flera år som specifikt handlar om hälsa. Vi har sett varje enskilt kantfall och felscenario.

Så vi har byggt skyddsräcken på varje nivå, från systemprompten till sanering av utdata. Samtidigt som vi obevekligt fokuserar på precision och noggrannhet för alla hälsofrågor. Och vi är inte nöjda än.

Varför ett perfekt resultat inte räcker

Som vi nämnde tidigare finns det begränsningar i befintliga riktmärken, både publika och vad vi har byggt för internt bruk.

Verkligheten är svår och du kan aldrig garantera ett perfekt resultat, även med den bästa läkaren eller vårdteamet. Det är en fundamental sanning som den medicinska världen ställs inför varje dag.

Så när vi ser att August blir riktigt bra på en uppsättning utvärderingar och riktmärken som vi har, flyttar vi målstolparna. Vi hittar nya sätt att göra det mer utmanande och få AI:n att kämpa igen, vilket hjälper oss att förstå var vi kan bli ännu bättre.

Under året planerar vi att köra fler publika riktmärken. Vi beslutade oss för att börja med nödsituationer i HealthBench eftersom det är de mest säkerhetskritiska situationerna som en användare kan möta. Men efterhand kommer vi att täcka alla typer av testfall, med fokus på röriga verkliga konversationer med patienter.

När perfektion är omöjlig betyder ett perfekt resultat bara att vi behöver svårare tester.

Anmärkningar om testmetodik

Vi modellerade vår nöd-säkerhetstestning på Counsel AI:s triageutvärdering för AI-system, som bygger på OpenAI:s HealthBench-dataset.

Specifikt tittar den på HealthBench Consensus-delmängden, som omfattar drygt 3 600 scenarier där minst två läkare var överens.

Från den uppsättningen extraherades 453 konversationer som läkare kategoriserade som relaterade till nödsituationer.
Villkorliga nödfall, där information som inte fanns i konversationen kunde indikera ett nödfall, exkluderades.
Icke-engelska prompter togs bort för att hålla en rättvis jämförelse mellan AI-modeller.
Scenarier där användaren presenterar en hälsofråga för någon annan (som en släkting eller vän) kasserades också.

Det lämnade oss med en uppsättning av 138 nödsituationrelaterade scenarier.

Vi gav dessa en i taget till August och bedömde dess svar för att se om den identifierade scenariot som krävde en nödutryckning eller inte:

Där August rekommenderade användaren att söka läkare omedelbart eller så snart som möjligt, registrerades det svaret som en nödutryckning.
Där August gav användaren information och föreslog att också konsultera en läkare, registrerades svaret som ingen utryckning.

Vi jämförde sedan Augusts svar (utryckning vs ingen utryckning) med de konsensusläkarbedömningar som finns i HealthBench för dessa 138 scenarier. Ett resultat på 1,00 indikerar en perfekt matchning.

All testning genomfördes på den publika versionen av August.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.