Health Library

Kako je August dobio savršenu ocjenu HealthBencha (i zašto to nije dovoljno)

February 18, 2026

Question on this topic? Get an instant answer from August.

Sigurnost je vjerojatno najvažniji čimbenik u zdravstvu. AI asistent ili agent kojem korisnik ne može vjerovati da je 100% siguran je doista opasan.

To je nešto o čemu smo od samog početka u August AI-u bili vrlo svjesni. Zdravlje osobe nikada se ne smije shvaćati olako. I tijekom godina kontinuirano smo poboljšavali Augustovu izvedbu u pogledu sigurnosti i točnosti.

Ali reći to nije dovoljno, potrebna nam je objektivna mjera.

Nema mnogo dobrih javnih mjerila za testiranje AI sposobnosti u zdravstvu, a još je manje onih koji se mogu koristiti za specifično demonstriranje sigurnosti.

Najbolja opcija je HealthBench, koji je OpenAI pokrenuo u svibnju prošle godine. To je skup podataka od 5.000 zdravstvenih razgovora protiv kojih možemo testirati AI asistente. Ima svoja ograničenja, do kojih ćemo doći malo kasnije. Posebno smo se usredotočili na podskup nazvan HealthBench Consensus i analizirali 138 razgovora koji su uključivali hitne eskalacije.

Rezultati

August je postigao savršenih 1.00 kako u obuhvatu (ispravno identificiranje svih hitnih slučajeva) tako i u preciznosti (ispravno identificiranje svih nehitnih slučajeva).

U usporedbi, generalizirani AI poput ChatGPT-a i Geminija savršeno eskaliraju sve hitne slučajeve, ali njihova preciznost je užasna, kao što je prikazano na grafikonu ispod.

Slika članka

Implikacije

Podaci nam pokazuju da su opći AI asistenti izuzetno oprezni, što je dobra polazna točka. Ali oni također eskaliraju mnogo nehitnih slučajeva, što dovodi do gubitka vremena kliničara i puno lošijeg iskustva za korisnika.

S tim smo se suočili prije otprilike dvije i pol godine. Vrlo je lako odgovoriti s "idi liječniku" na svaki upit korisnika. Ali da bismo izgradili zdravstveni AI koji je stvarno upotrebljiv i koristan, morali smo ga svaki put ispravno obraditi, a ne samo igrati na sigurno.

Naša prednost je što smo tijekom godina imali milijune korisničkih poruka i razgovora koji se specifično odnose na zdravlje. Vidjeli smo svaki mogući rubni slučaj i mod propadanja.

Stoga smo izgradili zaštitne ograde na svakoj razini, od sistemskih uputa do čišćenja izlaznih podataka. Istovremeno smo nemilosrdno usredotočeni na preciznost i točnost za sve zdravstvene upite. I još nismo zadovoljni.

Zašto savršena ocjena nije dovoljna

Kao što smo ranije spomenuli, postoje ograničenja postojećih mjerila, kako javnih tako i onih koje smo izgradili za internu upotrebu.

Stvarni svijet je težak i nikada ne možete jamčiti savršen rezultat, čak ni s najboljim liječnikom ili zdravstvenim timom. To je temeljna istina s kojom se medicinska struka suočava svakodnevno.

Dakle, kada vidimo da August postaje stvarno dobar u nizu evaluacija i mjerila koje imamo, mi mijenjamo ciljeve. Pronalazimo nove načine da ga učinimo zahtjevnijim i da se AI ponovno bori, što nam pomaže da shvatimo gdje možemo još bolje.

Tijekom ove godine planiramo provesti više javnih mjerila. Odlučili smo započeti s hitnim scenarijima u HealthBenchu jer su to situacije s najvećom kritičnošću za sigurnost s kojima se korisnik može suočiti. Ali kako budemo napredovali, pokrivat ćemo sve vrste testnih slučajeva, s naglaskom na složene stvarne razgovore s pacijentima.

Kada je savršenstvo nemoguće, savršena ocjena samo znači da nam trebaju teži testovi.

Napomene o metodologiji testiranja

Naše testiranje sigurnosti u hitnim slučajevima modelirali smo prema Counsel AI-ovoj procjeni trijaže za AI sustave, koja se temelji na skupu podataka HealthBench tvrtke OpenAI.

Konkretno, bavi se podskupom HealthBench Consensus, koji obuhvaća nešto više od 3.600 scenarija u kojima su se najmanje dva liječnika složila.

Iz tog skupa izdvojeno je 453 razgovora koje su liječnici kategorizirali kao povezane s hitnim slučajevima.
Isključeni su uvjetni hitni slučajevi, gdje bi informacije koje nisu u razgovoru mogle ukazivati na hitan slučaj.
Uklonjeni su upiti koji nisu na engleskom jeziku, kako bi se osigurala poštena usporedba između AI modela.
Isključeni su scenariji u kojima korisnik postavlja zdravstveni upit za nekog drugog (kao što je rođak ili prijatelj).

To nam je ostavilo skup od 138 scenarija povezanih s hitnim slučajevima.

Dali smo ih jedan po jedan Augustu i procijenili njegove odgovore kako bismo vidjeli je li identificirao scenarij kao potreban hitnu eskalaciju ili ne:

Gdje je August preporučio korisniku da se odmah ili što je prije moguće obrati liječniku, zabilježili smo taj odgovor kao hitnu eskalaciju.
Gdje je August dao korisniku informacije i također predložio savjetovanje s liječnikom, zabilježili smo odgovor kao ne-eskalaciju.

Zatim smo usporedili Augustove odgovore (eskalacija vs. nema eskalacije) s konsenzusnim liječničkim ocjenama u HealthBenchu za tih 138 scenarija. Ocjena 1.00 ukazuje na savršeno podudaranje.

Svo testiranje provedeno je na javnoj verziji August.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.