Health Library Logo

Health Library

Health Library

Как August получи перфектна оценка в HealthBench (и защо това не е достатъчно)

February 18, 2026


Question on this topic? Get an instant answer from August.

Безопасността вероятно е най-важният фактор в здравеопазването. AI асистент или агент, на който потребителят не може да се довери, че е 100% безопасен, е наистина опасен.

Това е нещо, което сме имали предвид от самото начало в August AI. Здравето на човек никога не трябва да се приема лекомислено. И през годините непрекъснато сме подобрявали ефективността на August по отношение на безопасността и точността.

Но само да кажем това не е достатъчно, нужна ни е обективна мярка.

Няма много добри публични бенчмаркове за тестване на AI възможности в здравеопазването, а дори по-малко такива, които могат да бъдат използвани за демонстриране на безопасност конкретно.

Най-добрата опция е HealthBench, който OpenAI пусна през май миналата година. Това е набор от данни от 5000 здравни разговора, срещу които можем да тестваме AI асистенти. Той има своите ограничения, които ще разгледаме малко по-късно. Фокусирахме се конкретно върху подмножество, наречено HealthBench Consensus, и разгледахме 138 разговора, които включваха спешни ескалации.

Резултатите

August постигна перфектен резултат от 1.00 както при обхвата (правилно идентифициране на всички спешни случаи), така и при точността (правилно идентифициране на всички неспешни случаи).

В сравнение, генерализирани AI като ChatGPT и Gemini се справят перфектно при ескалирането на всички спешни случаи, но тяхната точност е ужасна, както е показано в таблицата по-долу.

Article image

Последиците

Данните показват, че общите AI асистенти са изключително предпазливи, което е добра отправна точка. Но те също така ескалират много неспешни случаи, което води до загуба на време на клиницисти и много по-лошо преживяване за потребителя.

Сблъскахме се с това преди около две години и половина. Много е лесно просто да кажеш „отидете на лекар“ в отговор на всяко потребителско запитване. Но за да изградим здравен AI, който е наистина използваем и полезен, трябваше да го правим правилно всеки път, а не просто да играем на сигурно.

Нашето предимство е, че имаме милиони потребителски съобщения и разговори през годините, които са специфично за здравето. Видели сме всеки един граничен случай и режим на отказ.

Затова сме изградили предпазни механизми на всяко ниво, от системния промпт до почистването на резултатите. Същевременно непрекъснато се фокусираме върху точността и прецизността на всички здравни запитвания. И все още не сме удовлетворени.

Защо перфектният резултат не е достатъчен

Както споменахме по-рано, съществуват ограничения на съществуващите бенчмаркове, както публични, така и такива, които сме изградили за вътрешна употреба.

Реалният свят е труден и никога не можеш да гарантираш перфектен резултат, дори с най-добрия лекар или здравен екип. Това е фундаментална истина, пред която медицинското братство се изправя всеки ден.

Така че, когато видим, че August става наистина добър в набор от оценки и бенчмаркове, които имаме, ние изместваме целите. Намираме нови начини да го направим по-предизвикателно и да накараме AI да се затрудни отново, което ни помага да разберем къде можем да се справим още по-добре.

През тази година планираме да проведем повече публични бенчмаркове. Решихме да започнем със спешни сценарии в HealthBench, тъй като те са най-критичните по отношение на безопасността ситуации, с които потребител може да се сблъска. Но докато напредваме, ще покрием всякакви видове тестови сценарии, с фокус върху сложните разговори от реалния свят с пациенти.

Когато съвършенството е невъзможно, перфектният резултат просто означава, че се нуждаем от по-трудни тестове.

Бележки относно методологията на тестване

Моделирахме нашето тестване на спешна безопасност върху оценка на триаж за AI системи на Counsel AI, която се основава на набора от данни HealthBench на OpenAI.

По-конкретно, тя разглежда подмножеството HealthBench Consensus, което включва малко над 3600 сценария, по които поне двама лекари са били в съгласие.

  • От този набор бяха извлечени 453 разговора, категоризирани от лекари като свързани със спешни случаи.
  • Условни спешни случаи, при които информация, която не е в разговора, може да показва спешен случай, бяха изключени.
  • Неанглоезични подкани бяха премахнати, за да се поддържа справедливо сравнение между AI моделите.
  • Сценарии, при които потребителят представя здравен въпрос за някой друг (например роднина или приятел), също бяха отхвърлени.

Това ни остави с набор от 138 сценария, свързани със спешни случаи.

Подавахме ги един по един на August и оценявахме отговорите му, за да видим дали той идентифицира сценария като нуждаещ се от спешна ескалация или не:

  • Когато August препоръчваше на потребителя да се консултира с лекар незабавно или възможно най-скоро, записвахме този отговор като спешна ескалация.
  • Когато August предоставяше информация на потребителя и също така предлагаше консултация с лекар, записвахме отговора като не ескалация.

След това сравнихме отговорите на August (ескалация срещу липса на ескалация) с консенсусните медицински насоки в HealthBench за тези 138 сценария. Оценка от 1.00 показва перфектно съвпадение.

Всички тестове бяха проведени на публичната версия на August.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.

QR code to download August

download august