Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
Ang kaligtasan marahil ang pinakamahalagang salik sa pangangalaga sa kalusugan. Ang isang AI assistant o ahente na hindi mapagkakatiwalaan ng user na 100% ligtas ay talagang mapanganib.
Ito ay isang bagay na naging napaka-malay namin mula pa noong simula sa August AI. Ang kalusugan ng isang tao ay hindi kailanman dapat balewalain. At sa paglipas ng mga taon, patuloy naming pinagbuti ang pagganap ng August sa kaligtasan at kawastuhan.
Ngunit ang pagsasabi nito ay hindi sapat, kailangan namin ng isang obhetibong pagsukat.
Walang gaanong magandang pampublikong mga benchmark para sa pagsubok ng mga kakayahan ng AI sa pangangalaga sa kalusugan, at mas kaunti pa ang magagamit upang ipakita partikular ang kaligtasan.
Ang pinakamahusay na opsyon ay ang HealthBench, na inilunsad ng OpenAI noong Mayo noong nakaraang taon. Ito ay isang dataset ng 5,000 mga pag-uusap tungkol sa kalusugan na maaari naming subukan ang mga AI assistant. Mayroon itong mga limitasyon, na ating pag-uusapan nang kaunti. Nakatuon kami partikular sa isang subset na tinatawag na HealthBench Consensus, at sinuri namin ang 138 mga pag-uusap na kinasasangkutan ng mga emergency escalation.
Nakakuha ang August ng perpektong 1.00 sa parehong recall (pagkilala sa lahat ng mga emergency nang tama) at precision (pagkilala sa lahat ng mga hindi-emergency nang tama).
Kung ihahambing, ang pangkalahatang AI tulad ng ChatGPT at Gemini ay gumagawa ng perpekto sa pag-escalate ng lahat ng mga emergency, ngunit ang kanilang precision ay kakila-kilabot, tulad ng ipinapakita sa chart sa ibaba.

Ang ipinapakita ng data ay ang mga pangkalahatang AI assistant ay lubos na maingat, na isang magandang panimulang punto. Ngunit sila rin ay nag-e-escalate ng maraming mga hindi-emergency, na humahantong sa pag-aaksaya ng oras ng clinician at isang mas masahol na karanasan para sa user.
Naranasan namin ito mga dalawa at kalahating taon na ang nakakaraan. Napakadaling sabihin lamang na "kumunsulta sa doktor" bilang tugon sa bawat query ng user. Ngunit upang makabuo ng isang health AI na talagang magagamit at kapaki-pakinabang, kailangan naming maging tama sa bawat oras, hindi lamang maglaro ng ligtas.
Ang aming kalamangan ay nagkaroon kami ng milyun-milyong mga mensahe at pag-uusap ng user sa paglipas ng mga taon na partikular tungkol sa kalusugan. Nakita namin ang bawat solong edge case at failure mode.
Kaya nagtayo kami ng mga bantay sa bawat antas, mula sa system prompt hanggang sa paglilinis ng mga output. Habang kasabay nito ay walang humpay na nakatuon sa precision at accuracy para sa lahat ng mga health query. At hindi pa kami nasisiyahan.
Gaya ng nabanggit namin kanina, may mga limitasyon sa mga kasalukuyang benchmark, parehong pampubliko at ang ginawa namin para sa panloob na paggamit.
Mahirap ang tunay na mundo at hindi mo kailanman masisiguro ang isang perpektong resulta, kahit na sa pinakamahusay na doktor o pangkat ng pangangalaga sa kalusugan. Ito ay isang pangunahing katotohanan na kinakaharap ng medikal na samahan araw-araw.
Kaya kapag nakikita natin na ang August ay nagiging napakahusay sa isang hanay ng mga pagsusuri at benchmark na mayroon tayo, binabago natin ang mga layunin. Naghahanap kami ng mga bagong paraan upang gawin itong mas mapaghamon at hayaang muli itong mahirapan ang AI, na tumutulong sa amin na malaman kung saan pa kami maaaring mas bumuti.
Sa paglipas ng taong ito, plano naming magpatakbo ng mas maraming pampublikong benchmark. Nagpasya kaming magsimula sa mga emergency scenario sa HealthBench dahil ang mga ito ang pinaka-kritikal sa kaligtasan na maaaring harapin ng isang user. Ngunit habang patuloy kami, sasakupin namin ang lahat ng uri ng test cases, na may pagtuon sa mga magulong totoong-daigdig na pag-uusap sa mga pasyente.
Kapag imposible ang perpeksyon, ang isang perpektong marka ay nangangahulugan lamang na kailangan natin ng mas mahirap na mga pagsusulit.
Minodelo namin ang aming emergency safety testing sa triage assessment ng Counsel AI para sa mga AI system, na batay sa dataset ng HealthBench ng OpenAI.
Partikular, tinitingnan nito ang HealthBench Consensus subset, na binubuo ng mahigit 3,600 na mga scenario kung saan hindi bababa sa dalawang doktor ang nagkasundo.
Iyon ang naiwan sa amin ay isang set ng 138 na mga scenario na may kinalaman sa emergency.
Ibinigay namin iyon nang isa-isa sa August at sinuri ang mga tugon nito upang makita kung kinilala nito ang scenario bilang nangangailangan ng isang emergency escalation o hindi:
Pagkatapos ay inihambing namin ang mga tugon ng August (escalation vs walang escalation) sa consensus physician rubrics sa HealthBench para sa 138 na scenario na iyon. Ang marka na 1.00 ay nagpapahiwatig ng isang perpektong tugma.
Ang lahat ng pagsubok ay isinagawa sa pampublikong bersyon ng August.
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.