Health Library

Si August mori një rezultat perfekt në HealthBench (dhe pse nuk është mjaftueshëm)

Nga Soumili Pandey

Rishikuar nga Dr. Surya Vardhan

Publikuar më 2/18/2026

Question on this topic? Get an instant answer from August.

Siguria është ndoshta faktori më i rëndësishëm në kujdesin shëndetësor. Një asistent ose agjent AI, të cilit përdoruesi nuk mund t'i besojë të jetë 100% i sigurt, është në të vërtetë i rrezikshëm.

Kjo është diçka për të cilën kemi qenë shumë të vetëdijshëm që nga fillimi te August AI. Shëndeti i një personi nuk duhet kurrë të merret lehtë. Dhe gjatë viteve ne kemi përmirësuar vazhdimisht performancën e August në siguri dhe saktësi.

Por të thuash këtë nuk është mjaftueshëm, na duhet një matje objektive.

Nuk ka shumë benchmarke publike të mira për testimin e aftësive të AI në kujdesin shëndetësor, dhe edhe më pak që mund të përdoren për të demonstruar specifikisht sigurinë.

Opsioni më i mirë është HealthBench, të cilin OpenAI e lançoi në maj të vitit të kaluar. Është një grup të dhënash prej 5,000 bisedash shëndetësore kundër të cilave mund t'i testojmë asistentët AI. Ai ka kufizimet e tij, të cilat do t'i trajtojmë pak më vonë. Ne u përqendruam specifikisht në një nëngrup të quajtur HealthBench Consensus, dhe vështruam 138 biseda që përfshinin përshkallëzime emergjente.

Rezultatet

August shënoi një 1.00 perfekt si në rikuperim (identifikimi i saktë i të gjitha emergjencave) ashtu edhe në saktësi (identifikimi i saktë i të gjitha jo-emergjencave).

Në krahasim, AI të përgjithshëm si ChatGPT dhe Gemini performojnë në mënyrë perfekte duke përshkallëzuar të gjitha emergjencat, por saktësia e tyre është e tmerrshme, siç tregohet në grafikun më poshtë.

Imazhi i artikullit

Implikimet

Ajo që na tregojnë të dhënat është se asistentët e përgjithshëm AI janë jashtëzakonisht të kujdesshëm, gjë që është një pikënisje e mirë. Por ata gjithashtu përshkallëzojnë shumë jo-emergjenca, gjë që çon në humbjen e kohës së klinkëve dhe një përvojë shumë më të keqe për përdoruesin.

Ne hasëm në këtë rreth dy vite e gjysmë më parë. Është shumë e lehtë të thuash thjesht "shkoni te mjeku" si përgjigje për çdo pyetje të përdoruesit. Por për të ndërtuar një AI shëndetësore që është në të vërtetë e përdorshme dhe e dobishme, ne duhej ta bënim atë mirë çdo herë, jo thjesht të luanim të sigurt.

Avantazhi ynë është se kemi pasur miliona mesazhe dhe biseda përdoruesish gjatë viteve që kanë qenë specifikisht për shëndetin. Kemi parë çdo rast ekstrem dhe mënyrë dështimi.

Kështu që ne kemi ndërtuar parashikime në çdo nivel, nga sugjerimi i sistemit deri te pastrimi i rezultateve. Ndërkohë që fokusohemi pa u lodhur te saktësia dhe vërtetësia për të gjitha pyetjet shëndetësore. Dhe ne nuk jemi ende të kënaqur.

Pse një rezultat perfekt nuk është mjaftueshëm

Siç përmendëm më parë, ka kufizime në benchmarket ekzistuese, si ato publike ashtu edhe ato që kemi ndërtuar për përdorim të brendshëm.

Bota reale është e vështirë dhe ju kurrë nuk mund të garantoni një rezultat perfekt, edhe me mjekun ose ekipin më të mirë të kujdesit shëndetësor. Është një e vërtetë themelore me të cilën përballet vëllazëria mjekësore çdo ditë.

Pra, kur shohim që August po bëhet shumë i mirë në një grup vlerësimesh dhe benchmarkesh që kemi, ne zhvendosim shtyllat e qëllimit. Ne gjejmë mënyra të reja për ta bërë atë më sfidues dhe për ta bërë AI-në të luftojë përsëri, gjë që na ndihmon të kuptojmë se ku mund të bëjmë edhe më mirë.

Gjatë këtij viti, ne planifikojmë të zhvillojmë më shumë benchmarke publike. Ne vendosëm të fillojmë me skenarë emergjentë në HealthBench pasi ato janë situatat më kritike për sigurinë me të cilat mund të përballet një përdorues. Por ndërsa ecim përpara, do të mbulojmë të gjitha llojet e rasteve testuese, me fokus në bisedat e çrregullta të botës reale me pacientët.

Kur përsosmëria është e pamundur, një rezultat perfekt do të thotë thjesht që na duhen teste më të vështira.

Shënime mbi metodologjinë e testimit

Ne modeluam testin tonë të sigurisë emergjente sipas vlerësimit të tregtisë së Counsel AI për sistemet AI, i cili bazohet në datasetin HealthBench të OpenAI.

Specifikisht, ai vështron në nëngrupin HealthBench Consensus, i cili përbëhet nga pak më shumë se 3,600 skenarë ku të paktën dy mjekë ishin në marrëveshje.

Nga ai grup, u nxorën 453 biseda të kategorizuara nga mjekët si të lidhura me emergjencën.
Rastet emergjente të kushtëzuara, ku informacioni që nuk është në bisedë mund të tregojë një emergjencë, u përjashtuan.
Kërkesat jo-anglisht u hoqën, për të mbajtur një krahasim të drejtë midis modeleve AI.
Skenarët ku përdoruesi paraqet një pyetje shëndetësore për dikë tjetër (si një i afërm ose një mik) u hodhën gjithashtu.

Kjo na la me një grup prej 138 skenarësh të lidhur me emergjencën.

Ne i dhamë ato një nga një Augustit dhe vlerësuam përgjigjet e tij për të parë nëse e identifikoi skenarin si nevojë për përshkallëzim emergjent apo jo:

Ku August rekomandoi që përdoruesi të shihte një mjek menjëherë ose sa më shpejt të ishte e mundur, ne regjistruam atë përgjigje si një përshkallëzim emergjent.
Ku August i dha përdoruesit informacion dhe sugjeroi gjithashtu konsultimin me një mjek, ne regjistruam përgjigjen si jo një përshkallëzim.

Pastaj krahasuam përgjigjet e Augustit (përshkallëzim vs pa përshkallëzim) me rubrikat konsensuale të mjekëve në HealthBench për ato 138 skenarë. Një rezultat prej 1.00 tregon një përputhje perfekte.

Të gjitha testet u kryen në versionin publik të August.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.