Health Library

Ako August získal dokonalé skóre HealthBench (a prečo to nestačí)

February 18, 2026

Question on this topic? Get an instant answer from August.

Bezpečnosť je pravdepodobne najdôležitejším faktorom v zdravotnej starostlivosti. AI asistent alebo agent, ktorému používateľ nemôže dôverovať, že bude 100% bezpečný, je skutočne nebezpečný.

Je to niečo, na čo sme v August AI boli od začiatku veľmi pozorní. Zdravie človeka by sa nikdy nemalo brať na ľahkú váhu. A počas rokov sme neustále zlepšovali výkonnosť Augustu v oblasti bezpečnosti a presnosti.

Ale povedať to nestačí, potrebujeme objektívne meranie.

Neexistuje veľa dobrých verejných benchmarkov na testovanie schopností AI v oblasti zdravotnej starostlivosti, a ešte menej takých, ktoré by sa dali použiť na konkrétne preukázanie bezpečnosti.

Najlepšou možnosťou je HealthBench, ktorý OpenAI spustil v máji minulého roka. Je to súbor údajov 5 000 zdravotných konverzácií, proti ktorému môžeme testovať AI asistentov. Má svoje obmedzenia, ku ktorým sa čoskoro dostaneme. Zamerali sme sa konkrétne na podskupinu nazvanú HealthBench Consensus a pozreli sme sa na 138 konverzácií, ktoré zahŕňali urgentné eskalácie.

Výsledky

August dosiahol dokonalé skóre 1,00 ako pri spätnej väzbe (správne identifikovanie všetkých urgentných prípadov), tak aj pri presnosti (správne identifikovanie všetkých neurgentných prípadov).

V porovnaní s tým, všeobecné AI ako ChatGPT a Gemini robia eskaláciu všetkých urgentných prípadov dokonale, ale ich presnosť je hrozná, ako ukazuje graf nižšie.

Obrázok článku

Dôsledky

To, čo nám údaje ukazujú, je, že všeobecní AI asistenti sú mimoriadne opatrní, čo je dobrý východiskový bod. Ale tiež eskalujú veľa neurgentných prípadov, čo vedie k plytvaniu časom lekárov a oveľa horšej skúsenosti pre používateľa.

Narazili sme na to asi pred dvoma a pol rokmi. Je veľmi ľahké povedať „choďte k lekárovi“ v reakcii na každú požiadavku používateľa. Ale aby sme vytvorili zdravotné AI, ktoré je skutočne použiteľné a užitočné, museli sme to urobiť správne zakaždým, nie len hrať na istotu.

Našou výhodou je, že sme mali milióny používateľských správ a konverzácií za roky, ktoré sa týkajú špecificky zdravia. Videli sme každý jednotlivý okrajový prípad a režim zlyhania.

Takže sme vybudovali ochranné zábrany na každej úrovni, od systémového promptu po čistenie výstupov. Zároveň sme neúnavne zameraní na presnosť a správnosť všetkých zdravotných dopytov. A ešte stále nie sme spokojní.

Prečo dokonalé skóre nestačí

Ako sme už spomínali, existujú obmedzenia existujúcich benchmarkov, či už verejných, alebo tých, ktoré sme si vytvorili na interné použitie.

Reálny svet je ťažký a nikdy nemôžete zaručiť dokonalý výsledok, dokonca ani s najlepším lekárom alebo zdravotníckym tímom. Je to základná pravda, ktorej lekárska obec čelí každý deň.

Takže keď vidíme, že August sa stáva naozaj dobrým v súbore hodnotení a benchmarkov, ktoré máme, posúvame cieľ. Nachádzame nové spôsoby, ako ho urobiť náročnejším a nechať AI znovu bojovať, čo nám pomáha zistiť, kde môžeme byť ešte lepší.

Počas tohto roka plánujeme spustiť viac verejných benchmarkov. Rozhodli sme sa začať s urgentnými scenármi v HealthBench, pretože sú to najkritickejšie bezpečnostné situácie, ktorým môže používateľ čeliť. Ale ako budeme postupovať, pokryjeme všetky druhy testovacích prípadov, so zameraním na zmiešané konverzácie z reálneho sveta s pacientmi.

Keď je dokonalosť nemožná, dokonalé skóre len znamená, že potrebujeme náročnejšie testy.

Poznámky k testovacej metodike

Naše testovanie núdzovej bezpečnosti sme modelovali podľa posúdenia triáže AI systémov spoločnosti Counsel AI, ktoré je založené na datasete HealthBench od OpenAI.

Konkrétne sa pozrel na podskupinu HealthBench Consensus, ktorá obsahuje niečo vyše 3 600 scenárov, na ktorých sa aspoň dvaja lekári zhodli.

Z tejto sady bolo extrahovaných 453 konverzácií kategorizovaných lekármi ako urgentné.
Prípadné urgentné prípady, kde informácie v konverzácii mohli naznačovať urgentný stav, boli vylúčené.
Neanglické prompty boli odstránené, aby sa zachovalo spravodlivé porovnanie medzi AI modelmi.
Scenáre, kde používateľ prezentuje zdravotný dopyt pre niekoho iného (napríklad príbuzného alebo priateľa), boli tiež odmietnuté.

To nám zanechalo súbor 138 scenárov súvisiacich s urgentnými situáciami.

Tieto sme jeden po druhom poskytli Augustu a vyhodnotili jeho odpovede, aby sme zistili, či identifikoval scenár ako vyžadujúci urgentnú eskaláciu alebo nie:

Kde August odporučil používateľovi navštíviť lekára okamžite alebo čo najskôr, zaznamenali sme túto odpoveď ako urgentnú eskaláciu.
Kde August poskytol používateľovi informácie a tiež navrhol konzultáciu s lekárom, zaznamenali sme odpoveď ako neeskalujúcu.

Potom sme porovnali Augustove odpovede (eskalácia vs. žiadna eskalácia) s konsenzuálnymi lekárskymi kritériami v HealthBench pre týchto 138 scenárov. Skóre 1,00 znamená dokonalú zhodu.

Všetky testy boli vykonané na verejnej verzii Augustu.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.