什麼是 HealthBench？

HealthBench 是由 OpenAI 推出的 5,000 個健康對話資料集，旨在測試 AI 助理，重點關注醫療保健領域的安全性和準確性。

什麼是 HealthBench Consensus？

HealthBench Consensus 是 HealthBench 的一個子集，專注於涉及緊急升級的 138 個對話，其中至少有兩位醫生對診斷或建議達成一致。

為什麼在 HealthBench 上獲得滿分還不夠？

現有的基準測試獲得滿分還不夠，因為現實世界是複雜且不可預測的；需要持續改進和更具挑戰性的測試，以確保 AI 的真實世界可用性和安全性。

August 是如何通過 HealthBench 測試的？

August 在 HealthBench Consensus 中接受了 138 個與緊急情況相關的場景測試，評估其在緊急升級方面的回應與醫生評分標準的比較結果。

August 如何獲得完美的 HealthBench 分數（為何這還不夠）

安全性大概是醫療保健中最關鍵的因素。一個用戶無法百分之百信任的 AI 助理或代理，將會非常危險。

這一直是 August AI 從一開始就非常重視的。一個人的健康絕不能輕忽。多年來，我們不斷提升 August 在安全性與準確性方面的表現。

但是光說不夠，我們需要客觀的衡量標準。

市面上很少有好的公開基準測試來評估 AI 在醫療保健領域的能力，而能夠專門用來證明安全性的更是少之又少。

最佳選擇是 HealthBench，這是 OpenAI 在去年五月推出的。它是一個包含 5,000 則健康對話的資料集，我們可以以此來測試 AI 助理。它有其侷限性，我們稍後會談到。我們特別專注於一個名為 HealthBench Consensus 的子集，並研究了 138 則涉及緊急情況升級的對話。

結果

August 在召回率（正確識別所有緊急情況）和精確度（正確識別所有非緊急情況）方面均獲得完美的 1.00 分。

相比之下，如 ChatGPT 和 Gemini 等通用 AI 在升級所有緊急情況方面表現完美，但它們的精確度非常差，如下圖所示。

文章圖片

影響

數據向我們展示的是，通用 AI 助理極其謹慎，這是一個好的開始。但它們也會升級很多非緊急情況，這會浪費臨床醫生的時間，並為用戶帶來更糟糕的體驗。

大約兩年半前，我們就遇到了這個問題。回應每個用戶查詢時，很容易就說「去看醫生」。但是要建立一個真正可用且有幫助的健康 AI，我們需要每次都做對，而不僅僅是謹慎行事。

我們的優勢在於，多年來我們擁有了數百萬則用戶訊息和對話，都是關於健康的。我們看過每一個極端案例和故障模式。

因此，我們在系統提示到輸出清理的每一個層級都建立了防護措施。同時，我們持續專注於所有健康查詢的精確度和準確性。而且我們還不滿意。

為何完美分數還不夠

正如我們之前提到的，現有的基準測試，無論是公開的還是我們內部建立的，都有其侷限性。

現實世界是複雜的，即使有最好的醫生或醫療團隊，你也永遠無法保證完美結果。這是醫療界每天都面臨的基本真相。

所以，當我們看到 August 在我們擁有的一系列評估和基準測試中表現得越來越好時，我們就會調整目標。我們尋找新的方法來增加挑戰性，讓 AI 再次陷入困境，這有助於我們找出可以做得更好的地方。

在今年，我們計劃進行更多公開基準測試。我們決定從 HealthBench 中的緊急情況場景開始，因為這些是使用者可能面臨的最關乎安全性的情況。但隨著進展，我們將涵蓋各種測試案例，重點是與患者的複雜真實世界對話。

當完美是不可能的時候，一個完美的分數僅意味著我們需要更嚴格的測試。

測試方法說明

我們根據 OpenAI 的 HealthBench 資料集，將緊急安全測試建立在 Counsel AI 的分診評估之上。

具體來說，它著重於 HealthBench Consensus 子集，該子集包含略多於 3,600 個至少有兩位醫生達成共識的場景。

從該集中，提取了 453 則被醫生歸類為緊急相關的對話。
排除了有條件的緊急情況，即對話中未包含的資訊可能表明緊急情況。
移除了非英文提示，以保持對不同 AI 模型比較的公平性。
排除了用戶為他人（例如親戚或朋友）提出健康諮詢的場景。

這樣，我們就剩下 138 個與緊急情況相關的場景。

我們一次將這些場景提供給 August，並評估其回應，以確定它是否識別出該場景需要緊急升級：

當 August 建議用戶立即或盡快就醫時，我們將此回應記錄為緊急升級。
當 August 向用戶提供資訊並同時建議諮詢醫生時，我們將此回應記錄為非升級。

然後，我們將 August 的回應（升級 vs. 非升級）與 HealthBench 中針對這 138 個場景的共識醫生評分標準進行比較。1.00 分表示完美匹配。

所有測試均在 August 的公開版本上進行。

August 如何獲得完美的 HealthBench 分數（為何這還不夠）

結果

影響

為何完美分數還不夠

測試方法說明

Your health journey starts with a single question