Health Library

Jinsi Agosti Ilivyopata Alama Kamili ya HealthBench (Na Kwa Nini Haitoshi)

February 18, 2026

Question on this topic? Get an instant answer from August.

Usalama pengine ndio jambo muhimu zaidi katika utunzaji wa afya. Msaidizi au wakala wa AI ambaye mtumiaji hawezi kumwamini kuwa salama 100% ni hatari sana.

Ni kitu ambacho tumezingatia sana tangu mwanzo katika Agosti AI. Afya ya mtu haipaswi kamwe kuchukuliwa kwa urahisi. Na kwa miaka mingi tumeendelea kuboresha utendaji wa Agosti katika usalama na usahihi.

Lakini kusema hivyo haitoshi, tunahitaji kipimo cha lengo.

Hakuna vigezo vingi vya umma vinavyofaa kwa kupima uwezo wa AI katika utunzaji wa afya, na hata wachache wanaoweza kutumiwa kuonyesha usalama hasa.

Chaguo bora zaidi ni HealthBench, ambayo OpenAI ilizindua Mei mwaka jana. Ni seti ya data ya mazungumzo 5,000 ya afya ambayo tunaweza kupima wasaidizi wa AI dhidi yake. Ina mapungufu yake, ambayo tutayafikia kidogo. Tulilenga hasa kwenye sehemu ndogo inayoitwa HealthBench Consensus, na kuangalia mazungumzo 138 yaliyohusisha upandishaji wa dharura.

Matokeo

Agosti ilipata alama kamili ya 1.00 katika ukumbukumbu (kutambua dharura zote kwa usahihi) na usahihi (kutambua yasiyo ya dharura zote kwa usahihi).

Kwa kulinganisha, AI ya jumla kama ChatGPT na Gemini hufanya vizuri kabisa katika kupandisha dharura zote, lakini usahihi wao ni mbaya, kama inavyoonyeshwa kwenye chati hapa chini.

Picha ya nakala

Athari

Kinachoonyesha data kwetu ni kwamba wasaidizi wa jumla wa AI wana tahadhari sana, ambayo ni mwanzo mzuri. Lakini pia hupandisha mambo mengi yasiyo ya dharura, ambayo husababisha kupoteza muda wa mtaalamu na uzoefu mbaya zaidi kwa mtumiaji.

Tulikumbana na hili kama miaka miwili na nusu iliyopita. Ni rahisi sana kusema "nenda ukamwone daktari" kwa kila ombi la mtumiaji. Lakini kujenga AI ya afya ambayo inatumiwa na kusaidia kweli, tulihitaji kuifanya iwe sawa kila wakati, sio tu kucheza kwa usalama.

Faida yetu ni kwamba tumekuwa na mamilioni ya jumbe za watumiaji na mazungumzo kwa miaka mingi ambayo yamehusu afya hasa. Tumeona kila hali ya kipekee na hali ya kushindwa.

Kwa hivyo tumejenga njia za ulinzi katika kila ngazi, kutoka kwa kidokezo cha mfumo hadi kusafisha matokeo. Wakati huo huo tunalenga kwa bidii katika usahihi na ukweli kwa maombi yote ya afya. Na bado hatujaridhika.

Kwa nini alama kamili haitoshi

Kama tulivyotaja hapo awali, kuna mapungufu kwa vigezo vilivyopo, vikubwa vya umma na vile ambavyo tumejenga kwa matumizi ya ndani.

Ulimwengu halisi ni mgumu na huwezi kuhakikisha matokeo kamili, hata na daktari bora au timu ya afya. Ni ukweli wa msingi ambao jamii ya kimatibabu inakabiliana nayo kila siku.

Kwa hivyo tunapoona kuwa Agosti inazidi kuwa nzuri katika seti ya tathmini na vigezo ambavyo tunavyo, tunabadilisha malengo. Tunapata njia mpya za kuifanya iwe changamoto zaidi na kumfanya AI ajitahidi tena, ambayo hutusaidia kujua mahali tunaweza kufanya vizuri zaidi.

Kwa mwaka huu, tunapanga kuendesha vigezo zaidi vya umma. Tuliamua kuanza na hali za dharura katika HealthBench kwani hizo ndizo hali muhimu zaidi za usalama ambazo mtumiaji anaweza kukabiliana nazo. Lakini tunapoendelea, tutashughulikia kila aina ya kesi za majaribio, kwa kuzingatia mazungumzo halisi ya wagonjwa.

Wakati ukamilifu hauwezekani, alama kamili inamaanisha tunahitaji majaribio magumu zaidi.

Vidokezo kuhusu mbinu ya kupima

Tuliunda upimaji wetu wa usalama wa dharura kulingana na tathmini ya upambanuzi ya Counsel AI kwa mifumo ya AI, ambayo inategemea seti ya data ya HealthBench ya OpenAI.

Hasa, inatazama sehemu ndogo ya HealthBench Consensus, ambayo ina zaidi ya vipengele 3,600 ambapo angalau madaktari wawili walikubaliana.

Kutoka kwa seti hiyo, mazungumzo 453 yaliyoainishwa na wataalamu wa matibabu kama yanayohusiana na dharura yaliondolewa.
Kesi za dharura zenye masharti, ambapo habari ambayo haimo kwenye mazungumzo inaweza kuonyesha dharura, zilitengwa.
Maombi yasiyo ya Kiingereza yaliondolewa, ili kuweka kulinganisha kwa haki kati ya mifumo ya AI.
Vipengele ambapo mtumiaji anauliza maswali ya afya kwa mtu mwingine (kama vile jamaa au rafiki) pia vilitupwa.

Hiyo ilituacha na seti ya vipengele 138 vinavyohusiana na dharura.

Tulimpa Agosti moja baada ya nyingine na kutathmini majibu yake ili kuona ikiwa ilitambua hali hiyo kama inahitaji upandishaji wa dharura au la:

Ambapo Agosti ilipendekeza mtumiaji aone daktari mara moja au haraka iwezekanavyo, tulirekodi jibu hilo kama upandishaji wa dharura.
Ambapo Agosti ilimpa mtumiaji habari na kupendekeza kumshauri daktari pia, tulirekodi jibu kama si upandishaji.

Kisha tukalinganisha majibu ya Agosti (upandishaji dhidi ya hakuna upandishaji) na maagizo ya daktari wa makubaliano katika HealthBench kwa vipengele hivyo 138. Alama ya 1.00 inaonyesha mechi kamili.

Upimaji wote ulifanywa kwenye toleo la umma la Agosti.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.