Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
Безопасность, вероятно, является самым важным фактором в здравоохранении. ИИ-ассистент или агент, которому пользователь не может доверять на 100%, действительно опасен.
Мы очень хорошо осознавали это с самого начала в August AI. О здоровье человека никогда нельзя относиться легкомысленно. И на протяжении многих лет мы постоянно улучшали производительность August в плане безопасности и точности.
Но говорить об этом недостаточно, нам нужно объективное измерение.
Существует не так много хороших общедоступных эталонных тестов для проверки возможностей ИИ в области здравоохранения, и еще меньше тех, которые можно использовать для демонстрации безопасности.
Лучший вариант — HealthBench, который OpenAI запустила в мае прошлого года. Это набор данных из 5000 медицинских разговоров, по которым мы можем тестировать ИИ-ассистентов. У него есть свои ограничения, о которых мы вскоре поговорим. Мы сосредоточились на подмножестве HealthBench Consensus и рассмотрели 138 разговоров, связанных с экстренной эскалацией.
August получил идеальный балл 1,00 за полноту (правильное определение всех экстренных случаев) и точность (правильное определение всех не экстренных случаев).
По сравнению с обобщенными ИИ, такими как ChatGPT и Gemini, они идеально справляются с эскалацией всех экстренных случаев, но их точность ужасна, как показано на графике ниже.

Данные показывают, что общие ИИ-ассистенты проявляют чрезвычайную осторожность, что является хорошей отправной точкой. Но они также эскалируют множество не экстренных случаев, что приводит к потере времени врачей и гораздо худшему опыту для пользователя.
Мы столкнулись с этим примерно два с половиной года назад. Очень легко сказать «обратитесь к врачу» в ответ на любой запрос пользователя. Но чтобы создать реально используемый и полезный медицинский ИИ, нам нужно было делать это правильно каждый раз, а не просто перестраховываться.
Наше преимущество в том, что за годы работы у нас были миллионы сообщений и разговоров пользователей, касающихся именно здоровья. Мы видели каждый крайний случай и каждую возможную ошибку.
Поэтому мы создали механизмы защиты на каждом уровне, от системных подсказок до очистки выходных данных. В то же время мы неустанно фокусировались на точности и правильности всех запросов, связанных со здоровьем. И мы еще не удовлетворены.
Как мы уже упоминали, существующие эталонные тесты, как общедоступные, так и те, что мы разработали для внутреннего использования, имеют свои ограничения.
Реальный мир сложен, и вы никогда не можете гарантировать идеальный результат, даже с лучшим врачом или медицинской командой. Это фундаментальная истина, с которой медицинское сообщество сталкивается каждый день.
Поэтому, когда мы видим, что August становится очень хорош в наборе тестов и эталонов, которые у нас есть, мы смещаем цели. Мы находим новые способы сделать тесты более сложными и заставить ИИ снова бороться, что помогает нам понять, где мы можем сделать еще лучше.
В течение этого года мы планируем провести больше публичных эталонных тестов. Мы решили начать с экстренных сценариев в HealthBench, поскольку это наиболее критические с точки зрения безопасности ситуации, с которыми может столкнуться пользователь. Но по мере продвижения мы будем охватывать все виды тестовых сценариев, уделяя особое внимание сложным реальным разговорам с пациентами.
Когда совершенство невозможно, идеальная оценка просто означает, что нам нужны более сложные тесты.
Мы построили наше тестирование безопасности в экстренных случаях на основе оценки triage для ИИ-систем от Counsel AI, которая основана на наборе данных HealthBench от OpenAI.
В частности, он рассматривает подмножество HealthBench Consensus, которое включает чуть более 3600 сценариев, по которым согласились как минимум два врача.
Таким образом, у нас остался набор из 138 сценариев, связанных с экстренными случаями.
Мы поочередно передавали эти сценарии August и оценивали его ответы, чтобы определить, распознал ли он сценарий как требующий экстренной эскалации или нет:
Затем мы сравнили ответы August (эскалация против отсутствия эскалации) с консенсусными врачебными правилами в HealthBench для этих 138 сценариев. Оценка 1,00 указывает на полное совпадение.
Все тестирование проводилось на общедоступной версии August.
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.