HealthBenchとは何ですか？

HealthBenchは、OpenAIがAIアシスタントのテストのために公開した5,000件の医療会話データセットです。医療における安全性と精度に焦点を当てています。

HealthBench Consensusとは何ですか？

HealthBench Consensusは、HealthBenchのサブセットで、少なくとも2人の医師が診断またはアドバイスに同意した緊急エスカレーションが関与した138件の会話に焦点を当てています。

HealthBenchで満点を取ることがなぜ十分ではないのですか？

既存のベンチマークで満点を取ることが十分ではないのは、現実世界が複雑で予測不可能だからです。AIの現実世界での有用性と安全性を確保するためには、継続的な改善とより困難なテストが必要です。

AugustはHealthBenchでどのようにテストされましたか？

Augustは、HealthBench Consensusの緊急関連シナリオ138件でテストされ、医師のルーブリックと比較して緊急エスカレーションに対する応答が評価されました。

AugustがHealthBenchで満点を獲得した方法（そして、それがなぜ十分ではないのか）

ヘルスケアにおいて、安全性はおそらく最も重要な要素です。ユーザーが100%安全だと信頼できないAIアシスタントまたはエージェントは、真に危険です。

これは、August AIで創業以来、私たちが非常に意識してきたことです。人の健康は決して軽視されるべきではありません。そして長年にわたり、私たちはAugustの安全性と正確性におけるパフォーマンスを継続的に向上させてきました。

しかし、それを言うだけでは不十分であり、客観的な測定が必要です。

ヘルスケアにおけるAIの能力をテストするための優れた公開ベンチマークは多くなく、特に安全性を実証するために使用できるものはさらに少ないです。

最善の選択肢は、昨年5月にOpenAIがローンチしたHealthBenchです。これは、AIアシスタントをテストできる5,000件の健康に関する会話のデータセットです。これには限界がありますが、それは後ほど説明します。私たちは特にHealthBench Consensusと呼ばれるサブセットに焦点を当て、緊急時のエスカレーションに関わる138件の会話を調べました。

結果

Augustは、リコール（すべての緊急事態を正しく特定する）と精度（すべての非緊急事態を正しく特定する）の両方で満点の1.00を獲得しました。

比較すると、ChatGPTやGeminiのような汎用AIは、すべての緊急事態をエスカレーションするという点では完璧ですが、以下のチャートに示すように、その精度はひどいものです。

記事画像

意味合い

データが示すのは、汎用AIアシスタントは非常に慎重であり、それは良い出発点であるということです。しかし、それらは多くの非緊急事態もエスカレーションするため、臨床医の時間を無駄にし、ユーザーの体験をはるかに悪化させます。

私たちは約2年半前にこれに直面しました。ユーザーからのあらゆる問い合わせに対して「医師の診察を受けてください」と言うのは非常に簡単です。しかし、実際に使用可能で役立つヘルスAIを構築するには、単に安全策を講じるだけでなく、毎回正しく対応する必要がありました。

私たちの強みは、長年にわたり健康に関する数百万件のユーザーメッセージと会話を蓄積してきたことです。私たちはあらゆるエッジケースと障害モードを見てきました。

そのため、システムプロンプトから出力のサニタイズまで、あらゆるレベルでガードレールを構築しました。同時に、すべての健康に関する問い合わせに対して、精度と正確性を絶え間なく追求しています。そして、私たちはまだ満足していません。

なぜ満点が十分ではないのか

前述したように、既存のベンチマークには限界があります。公開されているものも、私たちが内部使用のために構築したものも同様です。

現実世界は困難であり、最高の医師や医療チームであっても、完璧な結果を保証することは決してできません。これは、医療界が日々直面している根本的な真実です。

そのため、Augustが私たちが持つ評価とベンチマークのセットで非常に良くなっていると判断した場合、私たちは目標をさらに引き上げます。より困難な状況を作り出し、AIが再び苦労するように新しい方法を見つけます。これは、さらに改善できる点を見つけるのに役立ちます。

今年に入ってから、より多くの公開ベンチマークを実行する予定です。私たちは、HealthBenchの緊急シナリオから始めることにしました。なぜなら、それらはユーザーが直面する可能性のある最も安全性が重要な状況だからです。しかし、進むにつれて、患者との混沌とした現実世界の会話に焦点を当て、あらゆる種類のテストケースをカバーしていく予定です。

完璧が不可能である場合、満点は、より難しいテストが必要であることを意味するだけです。

テスト方法論に関する注記

私たちは、OpenAIのHealthBenchデータセットに基づいた、Counsel AIのAIシステム向けトリアージ評価を参考に、緊急時の安全性テストをモデル化しました。

具体的には、医師2名以上が合意した3,600件強のシナリオで構成されるHealthBench Consensusサブセットを調べました。

そのセットから、医師によって緊急事態関連と分類された453件の会話を抽出しました。
会話に含まれない情報が緊急事態を示す可能性のある条件付き緊急ケースは除外しました。
AIモデル間での公平な比較を維持するために、英語以外のプロンプトは削除しました。
ユーザーが（親族や友人など）他の人のために健康に関する問い合わせをしているシナリオも除外しました。

その結果、138件の緊急事態関連シナリオのセットが残りました。

これらのシナリオを1つずつAugustに与え、緊急時のエスカレーションが必要かどうかを判断した応答を評価しました。

Augustがユーザーに「直ちに、またはできるだけ早く医師の診察を受ける」ことを推奨した場合、その応答を緊急時のエスカレーションとして記録しました。
Augustがユーザーに情報を提供し、医師への相談も推奨した場合、その応答をエスカレーションではないと記録しました。

その後、Augustの応答（エスカレーションか否か）を、HealthBenchのコンセンサス医師の採点基準と比較しました。1.00のスコアは、完全な一致を示します。

すべてのテストは、Augustの公開バージョンで実施されました。

AugustがHealthBenchで満点を獲得した方法（そして、それがなぜ十分ではないのか）

結果

意味合い

なぜ満点が十分ではないのか

テスト方法論に関する注記

Your health journey starts with a single question