Health Library

August 如何获得完美的 HealthBench 分数（以及为何这还不够）

February 18, 2026

Question on this topic? Get an instant answer from August.

安全可能是医疗保健中最重要的因素。一个用户无法完全信任其安全性的 AI 助手或代理是极其危险的。

这是 August AI 从一开始就非常关注的事情。一个人不应轻视自己的健康。多年来，我们一直在不断提高 August 在安全性和准确性方面的表现。

但光说还不够，我们需要客观的衡量标准。

目前，用于测试医疗保健领域 AI 能力的公开基准测试并不多，而能够专门用于证明安全性的基准测试更是少之又少。

最好的选择是 HealthBench，这是 OpenAI 于去年 5 月推出的。它是一个包含 5,000 场健康对话的数据集，我们可以用它来测试 AI 助手。它也有其局限性，我们稍后会谈到。我们特别关注一个名为 HealthBench Consensus 的子集，并研究了涉及紧急升级的 138 场对话。

结果

August 在召回率（正确识别所有紧急情况）和精确率（正确识别所有非紧急情况）方面均获得了完美的 1.00 分。

相比之下，如以下图表所示，ChatGPT 和 Gemini 等通用 AI 在升级所有紧急情况方面表现完美，但它们的精确率却非常糟糕。

文章图片

影响

数据显示，通用 AI 助手非常谨慎，这是一个不错的起点。但它们也会将大量非紧急情况升级，这会导致浪费临床医生的时间，并给用户带来更糟糕的体验。

我们大约在两年前就遇到了这个问题。回应每一个用户查询，很容易就会说“去看医生”。但要构建一个真正可用且有帮助的健康 AI，我们需要每一次都做到正确，而不仅仅是“安全”。

我们的优势在于，多年来我们拥有数百万条与健康相关的用户消息和对话。我们见过每一个极端情况和故障模式。

因此，我们构建了各个层级的安全防护，从系统提示到输出净化。同时，不懈地专注于所有健康查询的精确率和准确率。而且我们还没有满足。

为什么完美的得分还不够

正如我们之前提到的，现有的基准测试存在局限性，包括公开基准测试以及我们为内部使用而构建的基准测试。

现实世界是复杂的，即使有最好的医生或医疗团队，你也永远无法保证完美的结果。这是医学界每天都面临的一个根本性事实。

因此，当我们看到 August 在我们拥有的评估和基准测试集上表现越来越好时，我们会调整目标。我们会寻找新的方法来增加挑战性，让 AI 再次面临困难，这有助于我们找出可以做得更好的地方。

今年，我们计划进行更多的公开基准测试。我们决定从 HealthBench 的紧急情况开始，因为这些是用户可能面临的最具安全性的关键情况。但随着项目的进展，我们将涵盖各种测试用例，重点关注与患者混乱的真实世界对话。

当完美不可能实现时，完美的得分仅仅意味着我们需要更难的测试。

测试方法说明

我们借鉴了 Counsel AI 的 AI 系统分诊评估来模拟我们的紧急安全测试，该评估基于 OpenAI 的 HealthBench 数据集。

具体来说，它关注 HealthBench Consensus 子集，该子集包含 3,600 多个情景，其中至少有两名医生达成一致。

在该集中，提取了 453 场被医生归类为与紧急情况相关的对话。
排除了有条件紧急情况，即对话中未包含的信息可能表明存在紧急情况。
删除了非英语提示，以保持 AI 模型之间的公平比较。
还丢弃了用户为他人（如亲戚或朋友）提供健康咨询的情景。

这样，我们就剩下 138 个与紧急情况相关的场景。

我们将这些场景逐一交给 August，并评估其响应，以查看它是否识别出需要紧急升级的情况：

当 August 建议用户立即或尽快就医时，我们将该响应记录为紧急升级。
当 August 向用户提供信息并同时建议咨询医生时，我们将该响应记录为非升级。

然后，我们将 August 的响应（升级与否）与 HealthBench 中针对这 138 个场景的共识医生评分进行比较。1.00 分表示完美匹配。

所有测试均在 August 的公开版本上进行。

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.