Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
Безопасность, вероятно, является самым важным фактором в здравоохранении. ИИ-ассистент или агент, которому пользователь не может доверять на 100%, действительно опасен.
Мы очень хорошо осознавали это с самого начала в August AI. О здоровье человека никогда нельзя относиться легкомысленно. И на протяжении многих лет мы постоянно улучшали производительность August в плане безопасности и точности.
Но говорить об этом недостаточно, нам нужно объективное измерение.
Существует не так много хороших общедоступных эталонных тестов для проверки возможностей ИИ в области здравоохранения, и еще меньше тех, которые можно использовать для демонстрации безопасности.
Лучший вариант — HealthBench, который OpenAI запустила в мае прошлого года. Это набор данных из 5000 медицинских разговоров, по которым мы можем тестировать ИИ-ассистентов. У него есть свои ограничения, о которых мы вскоре поговорим. Мы сосредоточились на подмножестве HealthBench Consensus и рассмотрели 138 разговоров, связанных с экстренной эскалацией.
August получил идеальный балл 1,00 за полноту (правильное определение всех экстренных случаев) и точность (правильное определение всех не экстренных случаев).
По сравнению с обобщенными ИИ, такими как ChatGPT и Gemini, они идеально справляются с эскалацией всех экстренных случаев, но их точность ужасна, как показано на графике ниже.

Данные показывают, что общие ИИ-ассистенты проявляют чрезвычайную осторожность, что является хорошей отправной точкой. Но они также эскалируют множество не экстренных случаев, что приводит к потере времени врачей и гораздо худшему опыту для пользователя.
Мы столкнулись с этим примерно два с половиной года назад. Очень легко сказать «обратитесь к врачу» в ответ на любой запрос пользователя. Но чтобы создать реально используемый и полезный медицинский ИИ, нам нужно было делать это правильно каждый раз, а не просто перестраховываться.
Наше преимущество в том, что за годы работы у нас были миллионы сообщений и разговоров пользователей, касающихся именно здоровья. Мы видели каждый крайний случай и каждую возможную ошибку.
Поэтому мы создали механизмы защиты на каждом уровне, от системных подсказок до очистки выходных данных. В то же время мы неустанно фокусировались на точности и правильности всех запросов, связанных со здоровьем. И мы еще не удовлетворены.
Как мы уже упоминали, существующие эталонные тесты, как общедоступные, так и те, что мы разработали для внутреннего использования, имеют свои ограничения.
Реальный мир сложен, и вы никогда не можете гарантировать идеальный результат, даже с лучшим врачом или медицинской командой. Это фундаментальная истина, с которой медицинское сообщество сталкивается каждый день.
Поэтому, когда мы видим, что August становится очень хорош в наборе тестов и эталонов, которые у нас есть, мы смещаем цели. Мы находим новые способы сделать тесты более сложными и заставить ИИ снова бороться, что помогает нам понять, где мы можем сделать еще лучше.
В течение этого года мы планируем провести больше публичных эталонных тестов. Мы решили начать с экстренных сценариев в HealthBench, поскольку это наиболее критические с точки зрения безопасности ситуации, с которыми может столкнуться пользователь. Но по мере продвижения мы будем охватывать все виды тестовых сценариев, уделяя особое внимание сложным реальным разговорам с пациентами.
Когда совершенство невозможно, идеальная оценка просто означает, что нам нужны более сложные тесты.
Мы построили наше тестирование безопасности в экстренных случаях на основе оценки triage для ИИ-систем от Counsel AI, которая основана на наборе данных HealthBench от OpenAI.
В частности, он рассматривает подмножество HealthBench Consensus, которое включает чуть более 3600 сценариев, по которым согласились как минимум два врача.
Таким образом, у нас остался набор из 138 сценариев, связанных с экстренными случаями.
Мы поочередно передавали эти сценарии August и оценивали его ответы, чтобы определить, распознал ли он сценарий как требующий экстренной эскалации или нет:
Затем мы сравнили ответы August (эскалация против отсутствия эскалации) с консенсусными врачебными правилами в HealthBench для этих 138 сценариев. Оценка 1,00 указывает на полное совпадение.
Все тестирование проводилось на общедоступной версии August.
Get clear medical guidance
on symptoms, medications, and lab reports.
Download August today. No appointments. Just answers you can trust.