Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
Безбедноста е веројатно најважниот фактор во здравствената заштита. АИ асистент или агент на кој корисникот не може да му верува дека е 100% безбеден е навистина опасен.
Тоа е нешто за што бевме многу свесни од самиот почеток во August AI. Здравјето на човекот никогаш не треба да се сфаќа лесно. И низ годините постојано ја подобрувавме работата на Август на полето на безбедноста и точноста.
Но, кажувањето не е доволно, ни треба објективно мерење.
Нема многу добри јавни бенчмаркови за тестирање на АИ способностите во здравствената заштита, а уште помалку кои можат да се користат за специфично демонстрирање на безбедноста.
Најдобрата опција е HealthBench, што OpenAI го лансираше во мај минатата година. Тоа е сет на податоци од 5.000 здравствени разговори против кои можеме да ги тестираме АИ асистентите. Има свои ограничувања, до кои ќе дојдеме за малку. Се фокусиравме конкретно на подмножество наречено HealthBench Consensus, и разгледавме 138 разговори кои вклучуваа итни ескалации.
Август постигна совршен резултат од 1,00 постигнувајќи совршен резултат и на препознавање (правилно идентификувајќи ги сите итни случаи) и на прецизност (правилно идентификувајќи ги сите не-итни случаи).
Во споредба, генерализирани АИ како ChatGPT и Gemini постигнуваат совршени резултати при ескалирање на сите итни случаи, но нивната прецизност е ужасна, како што е прикажано на графиконот подолу.

Она што податоците ни го покажуваат е дека општите АИ асистенти се екстремно претпазливи, што е добра почетна точка. Но, тие исто така ескалираат многу не-итни случаи, што доведува до губење време на лекарите и многу полошо искуство за корисникот.
Со ова се соочивме пред околу две и пол години. Многу е лесно да се каже „одете на лекар“ како одговор на секое барање на корисникот. Но, за да изградиме здравствено АИ што е навистина употребливо и корисно, требаше да го направиме правилно секој пат, а не само да играме на сигурно.
Нашата предност е што имаме милиони пораки и разговори од корисници со години кои се специфично за здравјето. Видовме секој поединечен граничен случај и режим на откажување.
Затоа, изградивме заштитни огради на секое ниво, од системскиот промпт до чистење на излезите. Во исто време, немилосрдно се фокусиравме на прецизноста и точноста за сите здравствени барања. И сè уште не сме задоволни.
Како што споменавме порано, постојат ограничувања на постоечките бенчмаркови, како јавните, така и оние што ги изградивме за внатрешна употреба.
Реалниот свет е тежок и никогаш не можете да гарантирате совршен резултат, дури ни со најдобриот лекар или здравствен тим. Тоа е фундаментална вистина со која се соочува медицинската фела секој ден.
Затоа, кога гледаме дека Август станува навистина добар во сет на евалуации и бенчмаркови што ги имаме, ги поместуваме целите. Наоѓаме нови начини да го направиме попредизвикувачки и АИ да се бори повторно, што ни помага да откриеме каде можеме да бидеме уште подобри.
Во текот на оваа година, планираме да спроведеме повеќе јавни бенчмаркови. Одлучивме да започнеме со итни сценарија во HealthBench, бидејќи тоа се најкритичните ситуации за безбедноста со кои може да се соочи корисникот. Но, како што одиме, ќе покриеме секакви тест случаи, со фокус на нерешени разговори од реалниот свет со пациенти.
Кога совршенството е невозможно, совршен резултат само значи дека ни требаат потешки тестови.
Нашето тестирање на безбедност при итни случаи го моделиравме според тријажната проценка на Counsel AI за АИ системи, која е заснована на HealthBench dataset на OpenAI.
Конкретно, се гледа подмножеството HealthBench Consensus, кое опфаќа малку над 3.600 сценарија каде најмалку двајца лекари биле во согласност.
Ова ни остави сет од 138 сценарија поврзани со итни случаи.
Ги дадовме тие еден по еден на Август и ги проценивме неговите одговори за да видиме дали го идентификувал сценариото како потребно итна ескалација или не:
Потоа ги споредивме одговорите на Август (ескалација наспроти нема ескалација) со консензус лекарските прописи во HealthBench за тие 138 сценарија. Резултат од 1,00 укажува на совршено совпаѓање.
Целото тестирање беше спроведено на јавната верзија на Август.
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.