Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
ヘルスケアにおいて、安全性はおそらく最も重要な要素です。ユーザーが100%安全だと信頼できないAIアシスタントまたはエージェントは、真に危険です。
これは、August AIで創業以来、私たちが非常に意識してきたことです。人の健康は決して軽視されるべきではありません。そして長年にわたり、私たちはAugustの安全性と正確性におけるパフォーマンスを継続的に向上させてきました。
しかし、それを言うだけでは不十分であり、客観的な測定が必要です。
ヘルスケアにおけるAIの能力をテストするための優れた公開ベンチマークは多くなく、特に安全性を実証するために使用できるものはさらに少ないです。
最善の選択肢は、昨年5月にOpenAIがローンチしたHealthBenchです。これは、AIアシスタントをテストできる5,000件の健康に関する会話のデータセットです。これには限界がありますが、それは後ほど説明します。私たちは特にHealthBench Consensusと呼ばれるサブセットに焦点を当て、緊急時のエスカレーションに関わる138件の会話を調べました。
Augustは、リコール(すべての緊急事態を正しく特定する)と精度(すべての非緊急事態を正しく特定する)の両方で満点の1.00を獲得しました。
比較すると、ChatGPTやGeminiのような汎用AIは、すべての緊急事態をエスカレーションするという点では完璧ですが、以下のチャートに示すように、その精度はひどいものです。

データが示すのは、汎用AIアシスタントは非常に慎重であり、それは良い出発点であるということです。しかし、それらは多くの非緊急事態もエスカレーションするため、臨床医の時間を無駄にし、ユーザーの体験をはるかに悪化させます。
私たちは約2年半前にこれに直面しました。ユーザーからのあらゆる問い合わせに対して「医師の診察を受けてください」と言うのは非常に簡単です。しかし、実際に使用可能で役立つヘルスAIを構築するには、単に安全策を講じるだけでなく、毎回正しく対応する必要がありました。
私たちの強みは、長年にわたり健康に関する数百万件のユーザーメッセージと会話を蓄積してきたことです。私たちはあらゆるエッジケースと障害モードを見てきました。
そのため、システムプロンプトから出力のサニタイズまで、あらゆるレベルでガードレールを構築しました。同時に、すべての健康に関する問い合わせに対して、精度と正確性を絶え間なく追求しています。そして、私たちはまだ満足していません。
前述したように、既存のベンチマークには限界があります。公開されているものも、私たちが内部使用のために構築したものも同様です。
現実世界は困難であり、最高の医師や医療チームであっても、完璧な結果を保証することは決してできません。これは、医療界が日々直面している根本的な真実です。
そのため、Augustが私たちが持つ評価とベンチマークのセットで非常に良くなっていると判断した場合、私たちは目標をさらに引き上げます。より困難な状況を作り出し、AIが再び苦労するように新しい方法を見つけます。これは、さらに改善できる点を見つけるのに役立ちます。
今年に入ってから、より多くの公開ベンチマークを実行する予定です。私たちは、HealthBenchの緊急シナリオから始めることにしました。なぜなら、それらはユーザーが直面する可能性のある最も安全性が重要な状況だからです。しかし、進むにつれて、患者との混沌とした現実世界の会話に焦点を当て、あらゆる種類のテストケースをカバーしていく予定です。
完璧が不可能である場合、満点は、より難しいテストが必要であることを意味するだけです。
私たちは、OpenAIのHealthBenchデータセットに基づいた、Counsel AIのAIシステム向けトリアージ評価を参考に、緊急時の安全性テストをモデル化しました。
具体的には、医師2名以上が合意した3,600件強のシナリオで構成されるHealthBench Consensusサブセットを調べました。
その結果、138件の緊急事態関連シナリオのセットが残りました。
これらのシナリオを1つずつAugustに与え、緊急時のエスカレーションが必要かどうかを判断した応答を評価しました。
その後、Augustの応答(エスカレーションか否か)を、HealthBenchのコンセンサス医師の採点基準と比較しました。1.00のスコアは、完全な一致を示します。
すべてのテストは、Augustの公開バージョンで実施されました。
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.