Health Library

Kuidas August sai HealthBenchi täiuslikud hinded (ja miks sellest ei piisa)

February 18, 2026

Question on this topic? Get an instant answer from August.

Ohutus on tervishoius ilmselt kõige tähtsam tegur. 100% ohutu olla usaldamatu tehisintellekti assistent või agent on tõeliselt ohtlik.

See on midagi, millest oleme August AI-s algusest peale väga teadlikud olnud. Inimese tervist ei tohiks kunagi kergekäeliselt võtta. Ja aastate jooksul oleme pidevalt täiustanud Augusti jõudlust ohutuse ja täpsuse osas.

Kuid pelgalt selle ütlemine ei piisa, vajame objektiivset mõõtmist.

Tervishoius tehisintellekti võimete testimiseks pole palju häid avalikke võrdlusaluseid, veel vähem neid, mida saab kasutada spetsiifiliselt ohutuse demonstreerimiseks.

Parim valik on HealthBench, mille OpenAI käivitas eelmisel aastal mais. See on 5000 tervisevestluse andmestik, mille vastu saame tehisintellekti assistente testida. Sellel on oma piirangud, milleni me veidi hiljem jõuame. Keskendusime spetsiifiliselt alajaotusele nimega HealthBench Consensus ja vaatasime läbi 138 vestlust, mis hõlmasid erakorralisi eskalatsioone.

Tulemused

August sai nii tagasikutsumisel (kõigi hädaolukordade õige tuvastamine) kui ka täpsusel (kõigi mittehädaolukordade õige tuvastamine) täiusliku 1.00.

Võrdluseks, üldised tehisintellektid nagu ChatGPT ja Gemini teevad hädaolukordade eskalatsioonil suurepäraselt, kuid nende täpsus on kohutav, nagu näitab allolev diagramm.

Artikli pilt

Implikatsioonid

Andmed näitavad meile, et üldised tehisintellekti assistendid on äärmiselt ettevaatlikud, mis on hea alguspunkt. Kuid nad eskaleerivad ka palju mittehädaolukordi, mis raiskab arstide aega ja halvendab kasutaja kogemust märkimisväärselt.

Sellega puutusime kokku umbes kaks ja pool aastat tagasi. Iga kasutajapäringule on väga lihtne vastata lihtsalt „mine arsti juurde“. Kuid et ehitada tervise tehisintellekt, mis on tegelikult kasutatav ja abivalmis, pidime saama selle iga kord õigeks, mitte ainult mängima ohutult.

Meie eeliseks on see, et aastate jooksul on meil olnud miljoneid kasutajate sõnumeid ja vestlusi, mis on spetsiifiliselt seotud tervisega. Oleme näinud iga üksikut erijuhtumit ja rikkerežiimi.

Seega oleme loonud piirangud igal tasandil, alates süsteemi viipest kuni väljundite puhastamiseni. Samal ajal keskendudes lakkamatult täpsusele ja korrektsusele kõigi tervisepäringute puhul. Ja me pole veel rahul.

Miks täiuslikust hindest ei piisa

Nagu eelnevalt mainisime, on olemasolevatel võrdlusalustel nii avalikel kui ka meie sisemiseks kasutamiseks loodud piirangud.

Reaalmaailm on keeruline ja täiuslikku tulemust ei saa kunagi garanteerida, isegi parima arsti või tervishoiumeeskonnaga. See on fundamentaalne tõde, millega arstkond iga päev silmitsi seisab.

Nii et kui näeme, et August muutub meie poolt loodud hindamis- ja võrdlusaluste kogumi osas väga heaks, nihutame eesmärke. Leiame uusi viise, kuidas seda veelgi keerulisemaks muuta ja tehisintellektil uuesti vaeva näha lasta, mis aitab meil välja selgitada, kus saame veel paremini hakkama.

Selle aasta jooksul plaanime läbi viia rohkem avalikke võrdlusaluseid. Otsustasime alustada HealthBenchi hädaolukorra stsenaariumidest, kuna need on kõige ohutuskriitilisemad olukorrad, millega kasutaja võib kokku puutuda. Kuid edasi liikudes hõlmame kõikvõimalikke testjuhtumeid, keskendudes segastele reaalmaailma vestlustele patsientidega.

Kui täiuslikkus on võimatu, tähendab täiuslik hinne lihtsalt seda, et vajame raskemaid teste.

Märkused testimismetoodika kohta

Modelleerisime oma hädaolukorra ohutuse testimise Counsel AI triage hindamise järgi tehisintellekti süsteemidele, mis põhineb OpenAI HealthBench andmestikul.

Täpsemalt vaatab see HealthBench Consensus alajaotust, mis koosneb veidi üle 3600 stsenaariumist, kus vähemalt kaks arsti olid ühel meelel.

Sellest kogumist ekstraheeriti 453 vestlust, mille arstid kategoriseerisid hädaolukorraga seotuks.
Tingimuslikud hädaolukorrad, kus vestluses puuduv teave võiks viidata hädaolukorrale, välistati.
Mitteingliskeelsed viiped eemaldati, et säilitada võrdne võrdlus tehisintellekti mudelite vahel.
Stsenaariumid, kus kasutaja esitab terviseküsimuse kellegi teise (näiteks sugulase või sõbra) kohta, visati samuti kõrvale.

See jättis meile 138 hädaolukorraga seotud stsenaariumi kogumi.

Andsime need ükshaaval Augustile ja hindasime selle vastuseid, et näha, kas see tuvastas stsenaariumi vajavat hädaolukorra eskalatsiooni või mitte:

Kui August soovitas kasutajal viivitamatult või esimesel võimalusel arsti juurde minna, registreerisime selle vastuse hädaolukorra eskalatsioonina.
Kui August andis kasutajale teavet ja soovitas ka arstiga konsulteerida, registreerisime vastuse mitte-eskalatsioonina.

Seejärel võrdlesime Augusti vastuseid (eskalatsioon vs mitte-eskalatsioon) HealthBenchi konsensusarsti juhistega nende 138 stsenaariumi puhul. 1.00 hinne näitab täiuslikku vastavust.

Kogu testimine viidi läbi Augusti avalikul versioonil.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.