Health Library

Как August получил идеальную оценку HealthBench (и почему этого недостаточно)

February 18, 2026

Question on this topic? Get an instant answer from August.

Безопасность, вероятно, является самым важным фактором в здравоохранении. ИИ-ассистент или агент, которому пользователь не может доверять на 100%, действительно опасен.

Мы очень хорошо осознавали это с самого начала в August AI. О здоровье человека никогда нельзя относиться легкомысленно. И на протяжении многих лет мы постоянно улучшали производительность August в плане безопасности и точности.

Но говорить об этом недостаточно, нам нужно объективное измерение.

Существует не так много хороших общедоступных эталонных тестов для проверки возможностей ИИ в области здравоохранения, и еще меньше тех, которые можно использовать для демонстрации безопасности.

Лучший вариант — HealthBench, который OpenAI запустила в мае прошлого года. Это набор данных из 5000 медицинских разговоров, по которым мы можем тестировать ИИ-ассистентов. У него есть свои ограничения, о которых мы вскоре поговорим. Мы сосредоточились на подмножестве HealthBench Consensus и рассмотрели 138 разговоров, связанных с экстренной эскалацией.

Результаты

August получил идеальный балл 1,00 за полноту (правильное определение всех экстренных случаев) и точность (правильное определение всех не экстренных случаев).

По сравнению с обобщенными ИИ, такими как ChatGPT и Gemini, они идеально справляются с эскалацией всех экстренных случаев, но их точность ужасна, как показано на графике ниже.

Изображение статьи

Последствия

Данные показывают, что общие ИИ-ассистенты проявляют чрезвычайную осторожность, что является хорошей отправной точкой. Но они также эскалируют множество не экстренных случаев, что приводит к потере времени врачей и гораздо худшему опыту для пользователя.

Мы столкнулись с этим примерно два с половиной года назад. Очень легко сказать «обратитесь к врачу» в ответ на любой запрос пользователя. Но чтобы создать реально используемый и полезный медицинский ИИ, нам нужно было делать это правильно каждый раз, а не просто перестраховываться.

Наше преимущество в том, что за годы работы у нас были миллионы сообщений и разговоров пользователей, касающихся именно здоровья. Мы видели каждый крайний случай и каждую возможную ошибку.

Поэтому мы создали механизмы защиты на каждом уровне, от системных подсказок до очистки выходных данных. В то же время мы неустанно фокусировались на точности и правильности всех запросов, связанных со здоровьем. И мы еще не удовлетворены.

Почему идеальная оценка — это недостаточно

Как мы уже упоминали, существующие эталонные тесты, как общедоступные, так и те, что мы разработали для внутреннего использования, имеют свои ограничения.

Реальный мир сложен, и вы никогда не можете гарантировать идеальный результат, даже с лучшим врачом или медицинской командой. Это фундаментальная истина, с которой медицинское сообщество сталкивается каждый день.

Поэтому, когда мы видим, что August становится очень хорош в наборе тестов и эталонов, которые у нас есть, мы смещаем цели. Мы находим новые способы сделать тесты более сложными и заставить ИИ снова бороться, что помогает нам понять, где мы можем сделать еще лучше.

В течение этого года мы планируем провести больше публичных эталонных тестов. Мы решили начать с экстренных сценариев в HealthBench, поскольку это наиболее критические с точки зрения безопасности ситуации, с которыми может столкнуться пользователь. Но по мере продвижения мы будем охватывать все виды тестовых сценариев, уделяя особое внимание сложным реальным разговорам с пациентами.

Когда совершенство невозможно, идеальная оценка просто означает, что нам нужны более сложные тесты.

Примечания к методологии тестирования

Мы построили наше тестирование безопасности в экстренных случаях на основе оценки triage для ИИ-систем от Counsel AI, которая основана на наборе данных HealthBench от OpenAI.

В частности, он рассматривает подмножество HealthBench Consensus, которое включает чуть более 3600 сценариев, по которым согласились как минимум два врача.

Из этого набора были извлечены 453 разговора, классифицированных врачами как связанные с экстренными случаями.
Условные экстренные случаи, когда информация, отсутствующая в разговоре, могла указывать на экстренную ситуацию, были исключены.
Запросы не на английском языке были удалены, чтобы обеспечить честное сравнение между моделями ИИ.
Сценарии, в которых пользователь представляет запрос о здоровье для другого человека (например, родственника или друга), также были отброшены.

Таким образом, у нас остался набор из 138 сценариев, связанных с экстренными случаями.

Мы поочередно передавали эти сценарии August и оценивали его ответы, чтобы определить, распознал ли он сценарий как требующий экстренной эскалации или нет:

Там, где August рекомендовал пользователю немедленно или как можно скорее обратиться к врачу, мы зафиксировали этот ответ как экстренную эскалацию.
Там, где August предоставлял пользователю информацию и также предлагал проконсультироваться с врачом, мы зафиксировали ответ как не эскалацию.

Затем мы сравнили ответы August (эскалация против отсутствия эскалации) с консенсусными врачебными правилами в HealthBench для этих 138 сценариев. Оценка 1,00 указывает на полное совпадение.

Все тестирование проводилось на общедоступной версии August.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.