Health Library

آگوست چگونه امتیاز کامل HealthBench را کسب کرد (و چرا کافی نیست)

February 18, 2026

Question on this topic? Get an instant answer from August.

ایمنی احتمالاً مهمترین عامل در مراقبت های بهداشتی است. یک دستیار یا عامل هوش مصنوعی که کاربر نمی تواند به 100% ایمنی آن اعتماد کند، واقعاً خطرناک است.

این چیزی است که ما از ابتدا در August AI بسیار به آن توجه داشته ایم. سلامتی یک فرد هرگز نباید نادیده گرفته شود. و در طول سال ها، ما به طور مداوم عملکرد آگوست را در زمینه ایمنی و دقت بهبود بخشیده ایم.

اما گفتن این کافی نیست، ما به یک معیار عینی نیاز داریم.

تست بنچمارک های عمومی خوب کمی برای آزمایش قابلیت های هوش مصنوعی در مراقبت های بهداشتی وجود دارد، و حتی کمتر از آنهایی که می توانند به طور خاص برای نشان دادن ایمنی استفاده شوند.

بهترین گزینه HealthBench است که OpenAI در ماه مه سال گذشته راه اندازی کرد. این مجموعه داده ای از 5000 مکالمه بهداشتی است که می توانیم دستیارهای هوش مصنوعی را در برابر آن آزمایش کنیم. این دارای محدودیت هایی است که در ادامه به آنها خواهیم پرداخت. ما به طور خاص بر روی زیرمجموعه ای به نام HealthBench Consensus تمرکز کردیم و به 138 مکالمه که شامل تشدید اضطراری بود، نگاه کردیم.

نتایج

آگوست در هر دو مورد فراخوانی (شناسایی صحیح تمام موارد اضطراری) و دقت (شناسایی صحیح تمام موارد غیر اضطراری) امتیاز کامل 1.00 را کسب کرد.

در مقایسه، هوش مصنوعی عمومی مانند ChatGPT و Gemini در تشدید تمام موارد اضطراری عالی عمل می کنند، اما دقت آنها فاجعه بار است، همانطور که در نمودار زیر نشان داده شده است.

تصویر مقاله

پیامدها

آنچه داده ها به ما نشان می دهند این است که دستیارهای هوش مصنوعی عمومی بسیار محتاط هستند، که نقطه شروع خوبی است. اما آنها همچنین بسیاری از موارد غیر اضطراری را تشدید می کنند، که منجر به اتلاف وقت پزشکان و تجربه بسیار بدتر برای کاربر می شود.

ما حدود دو سال و نیم پیش با این موضوع روبرو شدیم. بسیار آسان است که در پاسخ به هر درخواست کاربر بگوییم «به پزشک مراجعه کنید». اما برای ساخت یک هوش مصنوعی بهداشتی که واقعاً قابل استفاده و مفید باشد، ما نیاز داشتیم که هر بار آن را درست انجام دهیم، نه اینکه فقط ایمنی را حفظ کنیم.

مزیت ما این است که ما میلیون ها پیام و مکالمه کاربر در طول سال ها داشته ایم که به طور خاص در مورد سلامت است. ما هر مورد استثنایی و حالت شکست را دیده ایم.

بنابراین ما در هر سطحی، از دستور سیستم گرفته تا پاکسازی خروجی ها، موانع حفاظتی ایجاد کرده ایم. در حالی که در عین حال به طور مداوم بر دقت و صحت برای تمام پرس و جوهای بهداشتی تمرکز می کنیم. و ما هنوز راضی نیستیم.

چرا امتیاز کامل کافی نیست

همانطور که قبلاً ذکر کردیم، محدودیت هایی برای بنچمارک های موجود، چه عمومی و چه آنچه که ما برای استفاده داخلی ساخته ایم، وجود دارد.

دنیای واقعی دشوار است و شما هرگز نمی توانید نتیجه ای کامل را تضمین کنید، حتی با بهترین پزشک یا تیم مراقبت های بهداشتی. این یک حقیقت اساسی است که جامعه پزشکی هر روز با آن روبرو است.

بنابراین وقتی می بینیم که آگوست در مجموعه ای از ارزیابی ها و بنچمارک هایی که داریم واقعاً خوب عمل می کند، اهداف را تغییر می دهیم. ما راه های جدیدی برای چالش برانگیزتر کردن آن پیدا می کنیم و باعث می شویم هوش مصنوعی دوباره تلاش کند، که به ما کمک می کند بفهمیم کجا می توانیم بهتر عمل کنیم.

در طول سال جاری، ما قصد داریم بنچمارک های عمومی بیشتری را اجرا کنیم. ما تصمیم گرفتیم با سناریوهای اضطراری در HealthBench شروع کنیم، زیرا آنها بحرانی ترین موقعیت های ایمنی هستند که ممکن است یک کاربر با آنها روبرو شود. اما همانطور که پیش می رویم، انواع مختلفی از موارد آزمایشی را پوشش خواهیم داد، با تمرکز بر مکالمات واقعی و پیچیده با بیماران.

وقتی کمال غیرممکن است، یک امتیاز کامل فقط به این معنی است که ما به تست های سخت تری نیاز داریم.

نکات مربوط به روش تست

ما تست ایمنی اضطراری خود را بر اساس ارزیابی ترياژ Counsel AI برای سیستم های هوش مصنوعی، که مبتنی بر مجموعه داده HealthBench OpenAI است، مدل سازی کردیم.

به طور خاص، این مجموعه زیرمجموعه HealthBench Consensus را بررسی می کند که شامل کمی بیش از 3600 سناریو است که در آن حداقل دو پزشک توافق داشتند.

از آن مجموعه، 453 مکالمه که توسط پزشکان به عنوان مرتبط با موارد اضطراری طبقه بندی شده بودند، استخراج شد.
موارد اضطراری مشروط، که در آن اطلاعاتی که در مکالمه وجود نداشت ممکن بود نشان دهنده یک وضعیت اضطراری باشد، حذف شد.
پرس و جوهای غیر انگلیسی حذف شدند تا مقایسه منصفانه ای بین مدل های هوش مصنوعی حفظ شود.
سناریوهایی که در آنها کاربر در حال ارائه یک پرس و جو بهداشتی برای شخص دیگری (مانند خویشاوند یا دوست) بود، نیز دور ریخته شد.

این کار ما را با مجموعه ای از 138 سناریوی مرتبط با موارد اضطراری باقی گذاشت.

ما آن ها را یکی یکی به آگوست دادیم و پاسخ های آن را ارزیابی کردیم تا ببینیم آیا سناریو را به عنوان نیاز به تشدید اضطراری شناسایی کرده است یا خیر:

جایی که آگوست توصیه کرد کاربر بلافاصله یا در اسرع وقت به پزشک مراجعه کند، ما آن پاسخ را به عنوان تشدید اضطراری ثبت کردیم.
جایی که آگوست اطلاعاتی را به کاربر داد و همچنین توصیه کرد که با پزشک مشورت کند، ما پاسخ را به عنوان عدم تشدید ثبت کردیم.

سپس پاسخ های آگوست (تشدید در مقابل عدم تشدید) را با معیارهای توافق پزشکان در HealthBench برای آن 138 سناریو مقایسه کردیم. امتیاز 1.00 نشان دهنده تطابق کامل است.

تمام تست ها بر روی نسخه عمومی آگوست انجام شد.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.