HealthBench란 무엇인가요?

HealthBench는 OpenAI가 AI 어시스턴트의 안전성과 정확성을 의료 분야에 집중하여 테스트하기 위해 출시한 5,000개의 건강 대화 데이터셋입니다.

HealthBench Consensus란 무엇인가요?

HealthBench Consensus는 HealthBench의 하위 집합으로, 138개의 응급 상황 관련 대화에 초점을 맞추고 있으며, 최소 두 명의 의사가 진단 또는 조언에 동의했습니다.

HealthBench에서 완벽한 점수를 받는 것이 왜 충분하지 않나요?

기존 벤치마크에서 완벽한 점수를 받는 것은 충분하지 않습니다. 현실 세계는 복잡하고 예측 불가능하기 때문입니다. AI의 실제 사용성과 안전성을 보장하기 위해서는 지속적인 개선과 더 어려운 테스트가 필요합니다.

August는 HealthBench에서 어떻게 테스트되었나요?

August는 HealthBench Consensus의 138개 응급 관련 시나리오에서 테스트되었으며, 의사 루브릭과 비교하여 응급 상황 발생 시의 응답을 평가받았습니다.

August가 완벽한 HealthBench 점수를 받은 방법 (그리고 충분하지 않은 이유)

안전은 아마도 의료 분야에서 가장 중요한 요소일 것입니다. 사용자가 100% 안전하다고 신뢰할 수 없는 AI 비서 또는 에이전트는 실제로 위험합니다.

이것은 August AI에서 처음부터 매우 의식했던 부분입니다. 사람의 건강은 결코 가볍게 여겨져서는 안 됩니다. 그리고 수년에 걸쳐 저희는 안전 및 정확성에 대한 August의 성능을 지속적으로 개선해 왔습니다.

하지만 말로만으로는 충분하지 않습니다. 객관적인 측정이 필요합니다.

의료 분야에서 AI 기능을 테스트할 수 있는 좋은 공개 벤치마크는 많지 않으며, 특히 안전을 입증하는 데 사용할 수 있는 것은 훨씬 더 적습니다.

가장 좋은 옵션은 작년 5월 OpenAI가 출시한 HealthBench입니다. 이는 AI 비서를 테스트할 수 있는 5,000개의 건강 대화 데이터 세트입니다. 이 데이터 세트에는 몇 가지 제한 사항이 있으며, 이는 곧 설명할 것입니다. 저희는 특히 HealthBench Consensus라는 하위 집합에 집중했으며, 응급 상황 격상을 포함하는 138개의 대화를 살펴보았습니다.

결과

August는 모든 응급 상황을 올바르게 식별하는 재현율(recall)과 모든 비응급 상황을 올바르게 식별하는 정밀도(precision) 모두에서 완벽한 1.00점을 받았습니다.

이에 비해 ChatGPT 및 Gemini와 같은 일반 AI는 모든 응급 상황을 격상시키는 데 완벽하지만, 아래 차트에서 볼 수 있듯이 정밀도는 형편없습니다.

기사 이미지

시사점

데이터는 일반 AI 비서가 매우 신중하며, 이는 좋은 출발점임을 보여줍니다. 하지만 그들은 또한 많은 비응급 상황을 격상시켜 임상의의 시간을 낭비하고 사용자 경험을 훨씬 더 나쁘게 만듭니다.

저희는 약 2년 반 전에 이 문제에 직면했습니다. 모든 사용자 쿼리에 대해 "의사에게 가보세요"라고 말하는 것은 매우 쉽습니다. 하지만 실제로 사용 가능하고 유용한 건강 AI를 구축하기 위해서는 단순히 안전하게만 가지 않고, 매번 올바르게 처리해야 했습니다.

저희의 장점은 수년에 걸쳐 건강과 관련된 수백만 건의 사용자 메시지와 대화를 보유하고 있다는 것입니다. 저희는 모든 예외 사례와 실패 모드를 보았습니다.

따라서 시스템 프롬프트부터 출력 정제까지 모든 수준에서 가드레일을 구축했습니다. 동시에 모든 건강 쿼리에 대한 정밀도와 정확성에 끊임없이 집중하고 있습니다. 그리고 저희는 아직 만족하지 못했습니다.

완벽한 점수가 충분하지 않은 이유

앞서 언급했듯이, 공개 벤치마크와 내부용으로 구축한 벤치마크 모두에는 한계가 있습니다.

실제 세계는 어렵고 최고의 의사나 의료팀과 함께하더라도 완벽한 결과를 보장할 수는 없습니다. 이것은 의사들이 매일 직면하는 근본적인 진실입니다.

따라서 August가 저희가 가진 일련의 평가 및 벤치마크에서 매우 뛰어나다는 것을 알게 되면, 저희는 목표를 변경합니다. 저희는 이를 더욱 어렵게 만들고 AI가 다시 어려움을 겪도록 새로운 방법을 찾아 더 나은 성과를 낼 수 있는 부분을 파악하는 데 도움을 줍니다.

올해 저희는 더 많은 공개 벤치마크를 실행할 계획입니다. 사용자가 직면할 수 있는 가장 안전하게 중요한 상황인 응급 시나리오부터 HealthBench에서 시작하기로 결정했습니다. 하지만 진행하면서 환자와의 복잡한 실제 대화에 초점을 맞춰 모든 종류의 테스트 사례를 다룰 것입니다.

완벽함이 불가능할 때, 완벽한 점수는 더 어려운 테스트가 필요하다는 것을 의미합니다.

테스트 방법론에 대한 참고 사항

저희는 OpenAI의 HealthBench 데이터 세트를 기반으로 하는 Counsel AI의 AI 시스템 분류 평가를 통해 응급 안전 테스트를 모델링했습니다.

구체적으로, 최소 두 명의 의사가 합의한 3,600개 이상의 시나리오로 구성된 HealthBench Consensus 하위 집합을 살펴봅니다.

해당 세트에서 의사가 응급 관련으로 분류한 453개의 대화가 추출되었습니다.
대화에 없는 정보가 응급 상황을 나타낼 수 있는 조건부 응급 사례는 제외되었습니다.
AI 모델 간의 공정한 비교를 위해 비영어 프롬프트는 제거되었습니다.
사용자가 다른 사람(친척이나 친구 등)을 위해 건강 관련 문의를 하는 시나리오는 또한 폐기되었습니다.

이를 통해 138개의 응급 관련 시나리오 세트가 남았습니다.

이 시나리오들을 하나씩 August에 제공하고 응답을 평가하여 응급 격상이 필요한 시나리오로 식별했는지 여부를 확인했습니다.

August가 사용자에게 즉시 또는 가능한 한 빨리 의사를 만나라고 권고한 경우, 해당 응답을 응급 격상으로 기록했습니다.
August가 사용자에게 정보를 제공하고 의사와 상담하라고 제안한 경우, 해당 응답을 격상이 아닌 것으로 기록했습니다.

그런 다음 138개 시나리오에 대한 HealthBench의 합의된 의사 루브릭과 August의 응답(격상 대 비격상)을 비교했습니다. 1.00점은 완벽한 일치를 나타냅니다.

모든 테스트는 August의 공개 버전에서 수행되었습니다.

August가 완벽한 HealthBench 점수를 받은 방법 (그리고 충분하지 않은 이유)

결과

시사점

완벽한 점수가 충분하지 않은 이유

테스트 방법론에 대한 참고 사항

Your health journey starts with a single question