Ang HealthBench ay isang dataset ng 5,000 pag-uusap tungkol sa kalusugan na inilunsad ng OpenAI upang subukan ang mga AI assistant, na nakatuon sa kaligtasan at kawastuhan sa pangangalaga ng kalusugan.

Ano ang HealthBench Consensus?

Ang HealthBench Consensus ay isang bahagi ng HealthBench na nakatuon sa 138 pag-uusap na may kinalaman sa mga emergency escalation, kung saan hindi bababa sa dalawang doktor ang nagkasundo sa diagnosis o payo.

Bakit hindi sapat ang perpektong marka sa HealthBench?

Hindi sapat ang perpektong marka sa mga kasalukuyang benchmark dahil ang totoong mundo ay kumplikado at hindi mahuhulaan; kailangan ang patuloy na pagpapabuti at mas mahihirap na pagsubok upang matiyak ang pagiging magagamit at kaligtasan ng AI sa totoong mundo.

Paano sinubok ang August sa HealthBench?

Sinubok ang August sa 138 mga sitwasyong may kinalaman sa emergency mula sa HealthBench Consensus, sinusuri ang mga tugon nito para sa mga emergency escalation kumpara sa mga pamantayan ng doktor.

Paano nakakuha ng perpektong HealthBench score ang August (at bakit hindi ito sapat)

Ang kaligtasan marahil ang pinakamahalagang salik sa pangangalaga sa kalusugan. Ang isang AI assistant o ahente na hindi mapagkakatiwalaan ng user na 100% ligtas ay talagang mapanganib.

Ito ay isang bagay na naging napaka-malay namin mula pa noong simula sa August AI. Ang kalusugan ng isang tao ay hindi kailanman dapat balewalain. At sa paglipas ng mga taon, patuloy naming pinagbuti ang pagganap ng August sa kaligtasan at kawastuhan.

Ngunit ang pagsasabi nito ay hindi sapat, kailangan namin ng isang obhetibong pagsukat.

Walang gaanong magandang pampublikong mga benchmark para sa pagsubok ng mga kakayahan ng AI sa pangangalaga sa kalusugan, at mas kaunti pa ang magagamit upang ipakita partikular ang kaligtasan.

Ang pinakamahusay na opsyon ay ang HealthBench, na inilunsad ng OpenAI noong Mayo noong nakaraang taon. Ito ay isang dataset ng 5,000 mga pag-uusap tungkol sa kalusugan na maaari naming subukan ang mga AI assistant. Mayroon itong mga limitasyon, na ating pag-uusapan nang kaunti. Nakatuon kami partikular sa isang subset na tinatawag na HealthBench Consensus, at sinuri namin ang 138 mga pag-uusap na kinasasangkutan ng mga emergency escalation.

Ang mga resulta

Nakakuha ang August ng perpektong 1.00 sa parehong recall (pagkilala sa lahat ng mga emergency nang tama) at precision (pagkilala sa lahat ng mga hindi-emergency nang tama).

Kung ihahambing, ang pangkalahatang AI tulad ng ChatGPT at Gemini ay gumagawa ng perpekto sa pag-escalate ng lahat ng mga emergency, ngunit ang kanilang precision ay kakila-kilabot, tulad ng ipinapakita sa chart sa ibaba.

Larawan ng artikulo

Ang mga implikasyon

Ang ipinapakita ng data ay ang mga pangkalahatang AI assistant ay lubos na maingat, na isang magandang panimulang punto. Ngunit sila rin ay nag-e-escalate ng maraming mga hindi-emergency, na humahantong sa pag-aaksaya ng oras ng clinician at isang mas masahol na karanasan para sa user.

Naranasan namin ito mga dalawa at kalahating taon na ang nakakaraan. Napakadaling sabihin lamang na "kumunsulta sa doktor" bilang tugon sa bawat query ng user. Ngunit upang makabuo ng isang health AI na talagang magagamit at kapaki-pakinabang, kailangan naming maging tama sa bawat oras, hindi lamang maglaro ng ligtas.

Ang aming kalamangan ay nagkaroon kami ng milyun-milyong mga mensahe at pag-uusap ng user sa paglipas ng mga taon na partikular tungkol sa kalusugan. Nakita namin ang bawat solong edge case at failure mode.

Kaya nagtayo kami ng mga bantay sa bawat antas, mula sa system prompt hanggang sa paglilinis ng mga output. Habang kasabay nito ay walang humpay na nakatuon sa precision at accuracy para sa lahat ng mga health query. At hindi pa kami nasisiyahan.

Bakit hindi sapat ang isang perpektong marka

Gaya ng nabanggit namin kanina, may mga limitasyon sa mga kasalukuyang benchmark, parehong pampubliko at ang ginawa namin para sa panloob na paggamit.

Mahirap ang tunay na mundo at hindi mo kailanman masisiguro ang isang perpektong resulta, kahit na sa pinakamahusay na doktor o pangkat ng pangangalaga sa kalusugan. Ito ay isang pangunahing katotohanan na kinakaharap ng medikal na samahan araw-araw.

Kaya kapag nakikita natin na ang August ay nagiging napakahusay sa isang hanay ng mga pagsusuri at benchmark na mayroon tayo, binabago natin ang mga layunin. Naghahanap kami ng mga bagong paraan upang gawin itong mas mapaghamon at hayaang muli itong mahirapan ang AI, na tumutulong sa amin na malaman kung saan pa kami maaaring mas bumuti.

Sa paglipas ng taong ito, plano naming magpatakbo ng mas maraming pampublikong benchmark. Nagpasya kaming magsimula sa mga emergency scenario sa HealthBench dahil ang mga ito ang pinaka-kritikal sa kaligtasan na maaaring harapin ng isang user. Ngunit habang patuloy kami, sasakupin namin ang lahat ng uri ng test cases, na may pagtuon sa mga magulong totoong-daigdig na pag-uusap sa mga pasyente.

Kapag imposible ang perpeksyon, ang isang perpektong marka ay nangangahulugan lamang na kailangan natin ng mas mahirap na mga pagsusulit.

Mga tala sa metodolohiya ng pagsubok

Minodelo namin ang aming emergency safety testing sa triage assessment ng Counsel AI para sa mga AI system, na batay sa dataset ng HealthBench ng OpenAI.

Partikular, tinitingnan nito ang HealthBench Consensus subset, na binubuo ng mahigit 3,600 na mga scenario kung saan hindi bababa sa dalawang doktor ang nagkasundo.

Mula sa set na iyon, 453 na mga pag-uusap na inuri ng mga doktor bilang may kinalaman sa emergency ay kinuha.
Ang mga conditional emergency case, kung saan ang impormasyon na wala sa pag-uusap ay maaaring magpahiwatig ng emergency, ay ibinukod.
Ang mga hindi-Ingles na prompt ay tinanggal, upang mapanatili ang patas na paghahambing sa mga AI model.
Ang mga scenario kung saan ang user ay nagpapakita ng health query para sa ibang tao (tulad ng kamag-anak o kaibigan) ay itinapon din.

Iyon ang naiwan sa amin ay isang set ng 138 na mga scenario na may kinalaman sa emergency.

Ibinigay namin iyon nang isa-isa sa August at sinuri ang mga tugon nito upang makita kung kinilala nito ang scenario bilang nangangailangan ng isang emergency escalation o hindi:

Kung saan inirekomenda ng August na kumunsulta ang user sa doktor kaagad o sa lalong madaling panahon, itinala namin ang tugon na iyon bilang isang emergency escalation.
Kung saan nagbigay ang August ng impormasyon sa user at nagmungkahi din na kumunsulta sa doktor, itinala namin ang tugon bilang hindi escalation.

Pagkatapos ay inihambing namin ang mga tugon ng August (escalation vs walang escalation) sa consensus physician rubrics sa HealthBench para sa 138 na scenario na iyon. Ang marka na 1.00 ay nagpapahiwatig ng isang perpektong tugma.

Ang lahat ng pagsubok ay isinagawa sa pampublikong bersyon ng August.

Paano nakakuha ng perpektong HealthBench score ang August (at bakit hindi ito sapat)

Ang mga resulta

Ang mga implikasyon

Bakit hindi sapat ang isang perpektong marka

Mga tala sa metodolohiya ng pagsubok

Your health journey starts with a single question