Health Library

Hoe August 'n perfekte HealthBench-telling gekry het (en waarom dit nie genoeg is nie)

February 18, 2026

Question on this topic? Get an instant answer from August.

Veiligheid is waarskynlik die belangrikste faktor in gesondheidsorg. 'n KI-assistent of agent waarop die gebruiker nie kan vertrou dat dit 100% veilig is nie, is werklik gevaarlik.

Dit is iets waaroor ons van die begin af by August AI baie bewus was. 'n Persoon se gesondheid moet nooit ligtelik opgeneem word nie. En oor die jare het ons August se prestasie op veiligheid en akkuraatheid deurlopend verbeter.

Maar om dit te sê is nie genoeg nie, ons benodig 'n objektiewe meting.

Daar is nie baie goeie publieke maatstawwe vir die toetsing van KI-vermoëns in gesondheidsorg nie, en selfs minder wat spesifiek gebruik kan word om veiligheid aan te toon.

Die beste opsie is HealthBench, wat OpenAI in Mei verlede jaar bekendgestel het. Dit is 'n datastel van 5 000 gesondheidsgesprekke waarmee ons KI-assistente kan toets. Dit het sy beperkinge, waartoe ons binnekort sal kom. Ons het spesifiek gefokus op 'n subgroep genaamd HealthBench Consensus, en gekyk na 138 gesprekke wat noodhulpverergerings behels het.

Die resultate

August het 'n perfekte 1.00 behaal op beide herwinning (identifisering van alle noodgevalle korrek) en presisie (identifisering van alle nie-noodgevalle korrek).

Ter vergelyking, veralgemeende KI soos ChatGPT en Gemini presteer perfek om alle noodgevalle te vererger, maar hul presisie is verskriklik, soos in die onderstaande grafiek getoon word.

Artikel prent

Die implikasies

Wat die data ons wys, is dat algemene KI-assistente uiters versigtig is, wat 'n goeie beginpunt is. Maar hulle vererger ook baie nie-noodgevalle, wat lei tot vermorsing van klinici se tyd en 'n baie slegter ervaring vir die gebruiker.

Ons het hierdie probleem ongeveer twee en 'n half jaar gelede teëgekom. Dit is baie maklik om 'as 'n dokter te sien' te sê as antwoord op elke gebruiker se navraag. Maar om 'n gesondheids-KI te bou wat werklik bruikbaar en nuttig is, moes ons dit elke keer regkry, nie net veilig speel nie.

Ons voordeel is dat ons miljoene gebruikersboodskappe en gesprekke oor jare gehad het wat spesifiek oor gesondheid handel. Ons het elke enkele randgeval en mislukkingsmodus gesien.

Daarom het ons by elke vlak beskermings ingebou, van die stelselprompt tot die ontsmetting van uitsette. Terselfdertyd het ons onophoudelik gefokus op presisie en akkuraatheid vir alle gesondheidsnavrae. En ons is nog nie tevrede nie.

Waarom 'n perfekte telling nie genoeg is nie

Soos ons vroeër genoem het, is daar beperkinge aan bestaande maatstawwe, beide publieke en wat ons vir interne gebruik gebou het.

Die regte wêreld is moeilik en jy kan nooit 'n perfekte resultaat waarborg nie, selfs nie met die beste dokter of gesondheidspan nie. Dit is 'n fundamentele waarheid wat die mediese broederskap elke dag in die gesig staar.

Dus, wanneer ons sien dat August regtig goed vaar op 'n stel evaluasies en maatstawwe wat ons het, skuif ons die doelpale. Ons vind nuwe maniere om dit uitdagender te maak en die KI weer te laat sukkel, wat ons help om uit te vind waar ons selfs beter kan vaar.

Gedurende hierdie jaar beplan ons om meer publieke maatstawwe uit te voer. Ons het besluit om met noodsituasies in HealthBench te begin, aangesien dit die veiligheids-kritiese situasies is wat 'n gebruiker mag teëkom. Maar soos ons aangaan, sal ons allerhande toetsgevalle dek, met 'n fokus op morsige regte-wêreld-gesprekke met pasiënte.

Wanneer perfeksie onmoontlik is, beteken 'n perfekte telling net dat ons harder toetse benodig.

Notas oor toetsmetodologie

Ons het ons noodveiligheidstoetsing gemodelleer op Counsel AI se triage-beoordeling vir KI-stelsels, wat gebaseer is op OpenAI se HealthBench-datastel.

Spesifiek kyk dit na die HealthBench Consensus subgroep, wat 'n bietjie meer as 3 600 scenario's behels waaroor minstens twee dokters ooreengekom het.

Uit daardie stel is 453 gesprekke wat deur geneeshere as noodverwante gekategoriseer is, onttrek.
Voorwaardelike noodgevalle, waar inligting wat nie in die gesprek voorkom nie, 'n noodgeval mag aandui, is uitgesluit.
Nie-Engelse promosies is verwyder om 'n billike vergelyking oor KI-modelle te behou.
Scenario's waar die gebruiker 'n gesondheidsnavraag vir iemand anders (soos 'n familielid of 'n vriend) voorlê, is ook weggegooi.

Dit het ons gelaat met 'n stel van 138 noodverwante scenario's.

Ons het daardie een vir een aan August gegee en sy antwoorde beoordeel om te sien of dit die scenario as 'n noodhulpverergering geïdentifiseer het of nie:

Waar August die gebruiker aanbeveel het om dadelik of so gou as moontlik 'n dokter te sien, het ons daardie antwoord as 'n noodhulpverergering aangeteken.
Waar August die gebruiker inligting gegee het en ook voorgestel het om 'n dokter te raadpleeg, het ons die antwoord as nie 'n verergering aangeteken nie.

Ons het daarna August se antwoorde (verergering vs geen verergering) vergelyk met die konsensus dokter-rubrieke in HealthBench vir daardie 138 scenario's. 'n Telling van 1.00 dui 'n perfekte pasmaat aan.

Alle toetsing is op die publieke weergawe van August uitgevoer.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.