Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
Безопасността вероятно е най-важният фактор в здравеопазването. AI асистент или агент, на който потребителят не може да се довери, че е 100% безопасен, е наистина опасен.
Това е нещо, което сме имали предвид от самото начало в August AI. Здравето на човек никога не трябва да се приема лекомислено. И през годините непрекъснато сме подобрявали ефективността на August по отношение на безопасността и точността.
Но само да кажем това не е достатъчно, нужна ни е обективна мярка.
Няма много добри публични бенчмаркове за тестване на AI възможности в здравеопазването, а дори по-малко такива, които могат да бъдат използвани за демонстриране на безопасност конкретно.
Най-добрата опция е HealthBench, който OpenAI пусна през май миналата година. Това е набор от данни от 5000 здравни разговора, срещу които можем да тестваме AI асистенти. Той има своите ограничения, които ще разгледаме малко по-късно. Фокусирахме се конкретно върху подмножество, наречено HealthBench Consensus, и разгледахме 138 разговора, които включваха спешни ескалации.
August постигна перфектен резултат от 1.00 както при обхвата (правилно идентифициране на всички спешни случаи), така и при точността (правилно идентифициране на всички неспешни случаи).
В сравнение, генерализирани AI като ChatGPT и Gemini се справят перфектно при ескалирането на всички спешни случаи, но тяхната точност е ужасна, както е показано в таблицата по-долу.

Данните показват, че общите AI асистенти са изключително предпазливи, което е добра отправна точка. Но те също така ескалират много неспешни случаи, което води до загуба на време на клиницисти и много по-лошо преживяване за потребителя.
Сблъскахме се с това преди около две години и половина. Много е лесно просто да кажеш „отидете на лекар“ в отговор на всяко потребителско запитване. Но за да изградим здравен AI, който е наистина използваем и полезен, трябваше да го правим правилно всеки път, а не просто да играем на сигурно.
Нашето предимство е, че имаме милиони потребителски съобщения и разговори през годините, които са специфично за здравето. Видели сме всеки един граничен случай и режим на отказ.
Затова сме изградили предпазни механизми на всяко ниво, от системния промпт до почистването на резултатите. Същевременно непрекъснато се фокусираме върху точността и прецизността на всички здравни запитвания. И все още не сме удовлетворени.
Както споменахме по-рано, съществуват ограничения на съществуващите бенчмаркове, както публични, така и такива, които сме изградили за вътрешна употреба.
Реалният свят е труден и никога не можеш да гарантираш перфектен резултат, дори с най-добрия лекар или здравен екип. Това е фундаментална истина, пред която медицинското братство се изправя всеки ден.
Така че, когато видим, че August става наистина добър в набор от оценки и бенчмаркове, които имаме, ние изместваме целите. Намираме нови начини да го направим по-предизвикателно и да накараме AI да се затрудни отново, което ни помага да разберем къде можем да се справим още по-добре.
През тази година планираме да проведем повече публични бенчмаркове. Решихме да започнем със спешни сценарии в HealthBench, тъй като те са най-критичните по отношение на безопасността ситуации, с които потребител може да се сблъска. Но докато напредваме, ще покрием всякакви видове тестови сценарии, с фокус върху сложните разговори от реалния свят с пациенти.
Когато съвършенството е невъзможно, перфектният резултат просто означава, че се нуждаем от по-трудни тестове.
Моделирахме нашето тестване на спешна безопасност върху оценка на триаж за AI системи на Counsel AI, която се основава на набора от данни HealthBench на OpenAI.
По-конкретно, тя разглежда подмножеството HealthBench Consensus, което включва малко над 3600 сценария, по които поне двама лекари са били в съгласие.
Това ни остави с набор от 138 сценария, свързани със спешни случаи.
Подавахме ги един по един на August и оценявахме отговорите му, за да видим дали той идентифицира сценария като нуждаещ се от спешна ескалация или не:
След това сравнихме отговорите на August (ескалация срещу липса на ескалация) с консенсусните медицински насоки в HealthBench за тези 138 сценария. Оценка от 1.00 показва перфектно съвпадение.
Всички тестове бяха проведени на публичната версия на August.
Get clear medical guidance
on symptoms, medications, and lab reports.