Health Library

Kako je August postigao savršenu ocenu na HealthBench-u (i zašto to nije dovoljno)

February 18, 2026

Question on this topic? Get an instant answer from August.

Bezbednost je verovatno najvažniji faktor u zdravstvenoj zaštiti. AI asistent ili agent kome korisnik ne može da veruje da je 100% bezbedan je zaista opasan.

To je nešto na šta smo od početka u August AI bili veoma svesni. Ljudsko zdravlje nikada ne treba shvatiti olako. I tokom godina smo kontinuirano unapređivali performanse August-a u pogledu bezbednosti i tačnosti.

Ali reći to nije dovoljno, potrebna nam je objektivna mera.

Nema mnogo dobrih javnih repera za testiranje AI mogućnosti u zdravstvu, a još manje onih koji se mogu koristiti za demonstraciju bezbednosti.

Najbolja opcija je HealthBench, koji je OpenAI lansirao u maju prošle godine. To je skup podataka od 5.000 zdravstvenih razgovora protiv kojih možemo testirati AI asistente. Ima svoja ograničenja, do kojih ćemo doći za malo. Fokusirali smo se posebno na podskup nazvan HealthBench Consensus, i pogledali 138 razgovora koji su uključivali hitne eskalacije.

Rezultati

August je postigao savršenih 1.00 kako na odzivu (pravilno identifikovanje svih hitnih slučajeva), tako i na preciznosti (pravilno identifikovanje svih nehitnih slučajeva).

U poređenju sa generalizovanim AI kao što su ChatGPT i Gemini, oni savršeno eskaliraju sve hitne slučajeve, ali im je preciznost užasna, kao što je prikazano na grafikonu ispod.

Slika članka

Implikacije

Ono što nam podaci pokazuju jeste da su generalni AI asistenti izuzetno oprezni, što je dobra početna tačka. Ali oni takođe eskaliraju mnoge nehitne slučajeve, što dovodi do gubljenja vremena kliničara i mnogo goreg korisničkog iskustva.

Sa ovim smo se susreli pre otprilike dve i po godine. Vrlo je lako reći „posetite lekara“ na svaki upit korisnika. Ali da bismo izgradili zdravstveni AI koji je zaista upotrebljiv i koristan, morali smo to svaki put da uradimo kako treba, a ne samo da se igramo na sigurno.

Naša prednost je što imamo milione korisničkih poruka i razgovora tokom godina koji se specifično tiču zdravlja. Videli smo svaki mogući rubni slučaj i model greške.

Tako smo izgradili zaštitne ograde na svakom nivou, od sistemskog upita do sanitizacije izlaza. Istovremeno, nemilosrdno smo se fokusirali na preciznost i tačnost za sve zdravstvene upite. I još uvek nismo zadovoljni.

Zašto savršena ocena nije dovoljna

Kao što smo ranije pomenuli, postoje ograničenja postojećih repera, kako javnih, tako i onih koje smo sami izgradili za internu upotrebu.

Stvarni svet je težak i nikada ne možete garantovati savršen rezultat, čak ni sa najboljim lekarom ili timom za negu. To je fundamentalna istina sa kojom se medicinska struka suočava svakodnevno.

Dakle, kada vidimo da August postaje zaista dobar u setu evaluacija i repera koje imamo, mi pomeramo ciljeve. Pronalazimo nove načine da ga učinimo izazovnijim i nateramo AI da se ponovo bori, što nam pomaže da shvatimo gde možemo još bolje da se snađemo.

Tokom ove godine, planiramo da sprovedemo više javnih repera. Odlučili smo da počnemo sa hitnim scenarijima u HealthBench-u, jer su to najkritičnije situacije po pitanju bezbednosti sa kojima se korisnik može suočiti. Ali kako budemo napredovali, pokrićemo sve vrste test slučajeva, sa fokusom na „prljave“ razgovore iz stvarnog sveta sa pacijentima.

Kada je savršenstvo nemoguće, savršena ocena samo znači da su nam potrebni teži testovi.

Napomene o metodologiji testiranja

Naše testiranje bezbednosti u hitnim slučajevima modelirali smo prema Counsel AI proceni trijaže za AI sisteme, koja se zasniva na skupu podataka HealthBench-a kompanije OpenAI.

Konkretno, ispituje podskup HealthBench Consensus, koji obuhvata nešto više od 3.600 scenarija u kojima se najmanje dva lekara slažu.

Iz tog skupa, izdvojeno je 453 razgovora koje su lekari kategorisali kao vezane za hitne slučajeve.
Isključeni su uslovni hitni slučajevi, gde informacije koje nisu u razgovoru mogu ukazivati na hitnost.
Uklonjeni su neengleski upiti, kako bi se održalo fer poređenje između AI modela.
Isključeni su i scenariji gde korisnik predstavlja zdravstveni upit za nekog drugog (kao što je rođak ili prijatelj).

Tako nam je ostao set od 138 scenarija vezanih za hitne slučajeve.

Dali smo ih jedan po jedan August-u i procenili njegove odgovore da vidimo da li je scenario identifikovao kao koji zahteva hitnu eskalaciju ili ne:

Gde je August preporučio korisniku da se odmah ili što pre obrati lekaru, zabeležili smo taj odgovor kao hitnu eskalaciju.
Gde je August dao korisniku informacije i takođe predložio konsultaciju sa lekarom, zabeležili smo odgovor kao ne-eskalaciju.

Zatim smo uporedili August-ove odgovore (eskalacija vs bez eskalacije) sa konsenzusnim lekarskim pravilima u HealthBench-u za tih 138 scenarija. Ocena 1.00 ukazuje na savršeno podudaranje.

Sva testiranja su sprovedena na javnoj verziji August-a.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.