ما هو HealthBench؟

HealthBench عبارة عن مجموعة بيانات تتكون من 5000 محادثة صحية أطلقتها OpenAI لاختبار المساعدين الأذكياء، مع التركيز على السلامة والدقة في مجال الرعاية الصحية.

ما هو HealthBench Consensus؟

HealthBench Consensus هو مجموعة فرعية من HealthBench تركز على 138 محادثة تضمنت تصعيدات طارئة، حيث اتفق طبيبان على الأقل على التشخيص أو النصيحة.

لماذا لا يكفي الحصول على درجة مثالية في HealthBench؟

إن الحصول على درجة مثالية في المعايير الحالية غير كافٍ لأن العالم الحقيقي معقد وغير قابل للتنبؤ؛ هناك حاجة إلى التحسين المستمر واختبارات أكثر تحديًا لضمان قابلية استخدام وسلامة الذكاء الاصطناعي في العالم الحقيقي.

كيف تم اختبار August على HealthBench؟

تم اختبار August على 138 سيناريو متعلق بالطوارئ من HealthBench Consensus، وتم تقييم استجاباته لتصعيدات الطوارئ مقارنة بمعايير الأطباء.

كيف حصل August على درجة HealthBench مثالية (ولماذا لا يكفي ذلك)

السلامة هي ربما العامل الأكثر أهمية في الرعاية الصحية. إن المساعد أو الوكيل الذكاء الاصطناعي الذي لا يستطيع المستخدم الوثوق به بأنه آمن بنسبة 100٪ هو خطير حقًا.

إنه شيء كنا واعين جدًا به منذ البداية في August AI. لا ينبغي أبدًا الاستهانة بصحة الشخص. وعلى مر السنين، قمنا باستمرار بتحسين أداء August من حيث السلامة والدقة.

ولكن مجرد قول ذلك لا يكفي، فنحن بحاجة إلى قياس موضوعي.

لا توجد العديد من المعايير العامة الجيدة لاختبار قدرات الذكاء الاصطناعي في مجال الرعاية الصحية، بل الأقل من ذلك يمكن استخدامها لإظهار السلامة على وجه التحديد.

الخيار الأفضل هو HealthBench، الذي أطلقته OpenAI في مايو من العام الماضي. إنها مجموعة بيانات من 5000 محادثة صحية يمكننا اختبار المساعدين الأذكياء الاصطناعيين ضدها. لها قيودها، والتي سنتطرق إليها قريبًا. ركزنا بشكل خاص على مجموعة فرعية تسمى HealthBench Consensus، ونظرنا في 138 محادثة تضمنت تصعيدات طارئة.

النتائج

حصل August على درجة مثالية 1.00 في كل من الاستدعاء (تحديد جميع حالات الطوارئ بشكل صحيح) والدقة (تحديد جميع الحالات غير الطارئة بشكل صحيح).

في المقابل، فإن الذكاء الاصطناعي العام مثل ChatGPT و Gemini يؤدي بشكل مثالي في تصعيد جميع حالات الطوارئ، ولكن دقته فظيعة، كما هو موضح في الرسم البياني أدناه.

صورة المقال

الآثار المترتبة

ما يظهره لنا البيانات هو أن المساعدين الأذكياء الاصطناعيين العامين حذرون للغاية، وهذا نقطة انطلاق جيدة. لكنهم أيضًا يصعدون الكثير من الحالات غير الطارئة، مما يؤدي إلى إهدار وقت الأطباء وتجربة أسوأ بكثير للمستخدم.

واجهنا هذا منذ حوالي عامين ونصف. من السهل جدًا القول "اذهب لرؤية طبيب" ردًا على كل استعلام للمستخدم. ولكن لبناء ذكاء اصطناعي صحي قابل للاستخدام ومفيد حقًا، احتجنا إلى القيام بذلك بشكل صحيح في كل مرة، وليس فقط اللعب بأمان.

ميزتنا هي أننا تلقينا ملايين رسائل المستخدمين والمحادثات على مر السنين التي تتعلق بالصحة على وجه التحديد. لقد رأينا كل حالة طرفية وكل وضع فشل.

لذلك قمنا ببناء حواجز وقائية على كل مستوى، من موجه النظام إلى تنقية المخرجات. بينما في نفس الوقت نركز بلا هوادة على الدقة والصحة لجميع استعلامات الصحة. ونحن لسنا راضين بعد.

لماذا لا تكفي الدرجة المثالية

كما ذكرنا سابقًا، هناك قيود على المعايير الحالية، سواء كانت عامة أو ما بنيناه للاستخدام الداخلي.

العالم الحقيقي صعب ولا يمكنك أبدًا ضمان نتيجة مثالية، حتى مع أفضل طبيب أو فريق رعاية صحية. إنها حقيقة أساسية تواجهها الفرعية الطبية كل يوم.

لذلك، عندما نرى أن August أصبح جيدًا حقًا في مجموعة من التقييمات والمعايير التي لدينا، فإننا نحول أهدافنا. نجد طرقًا جديدة لجعله أكثر صعوبة وجعل الذكاء الاصطناعي يكافح مرة أخرى، مما يساعدنا على معرفة أين يمكننا أن نتحسن.

على مدار هذا العام، نخطط لإجراء المزيد من المعايير العامة. قررنا البدء بسيناريوهات الطوارئ في HealthBench نظرًا لأنها المواقف الأكثر أهمية للسلامة التي قد يواجهها المستخدم. ولكن مع تقدمنا، سنغطي جميع أنواع حالات الاختبار، مع التركيز على المحادثات الواقعية الفوضوية مع المرضى.

عندما يكون الكمال مستحيلاً، فإن الدرجة المثالية تعني فقط أننا بحاجة إلى اختبارات أكثر صعوبة.

ملاحظات على منهجية الاختبار

لقد قمنا بنمذجة اختبار سلامة الطوارئ لدينا على تقييم الفرز الخاص بـ Counsel AI لأنظمة الذكاء الاصطناعي، والذي يعتمد على مجموعة بيانات HealthBench الخاصة بـ OpenAI.

على وجه التحديد، ينظر إلى مجموعة فرعية HealthBench Consensus، والتي تتألف من ما يزيد قليلاً عن 3600 سيناريو حيث اتفق طبيبان على الأقل.

من تلك المجموعة، تم استخراج 453 محادثة صنّفها الأطباء على أنها متعلقة بالطوارئ.
تم استبعاد حالات الطوارئ المشروطة، حيث قد تشير المعلومات غير الموجودة في المحادثة إلى حالة طوارئ.
تمت إزالة الاستعلامات غير الإنجليزية، للحفاظ على مقارنة عادلة عبر نماذج الذكاء الاصطناعي.
تم استبعاد السيناريوهات التي يقدم فيها المستخدم استعلامًا صحيًا لشخص آخر (مثل قريب أو صديق).

هذا ترك لنا مجموعة من 138 سيناريو متعلقًا بالطوارئ.

أعطينا تلك السيناريوهات واحدًا تلو الآخر إلى August وقيّمنا استجاباته لمعرفة ما إذا كان قد حدد السيناريو على أنه يحتاج إلى تصعيد طارئ أم لا:

حيث أوصى August المستخدم برؤية طبيب على الفور أو في أقرب وقت ممكن، سجلنا تلك الاستجابة كتصعيد طارئ.
حيث قدم August معلومات للمستخدم واقترح استشارة طبيب أيضًا، سجلنا الاستجابة على أنها ليست تصعيدًا.

ثم قارنا استجابات August (تصعيد مقابل عدم تصعيد) بمقاييس الأطباء المتفق عليها في HealthBench لتلك السيناريوهات الـ 138. تشير درجة 1.00 إلى تطابق مثالي.

تم إجراء جميع الاختبارات على الإصدار العام من August.

كيف حصل August على درجة HealthBench مثالية (ولماذا لا يكفي ذلك)

النتائج

الآثار المترتبة

لماذا لا تكفي الدرجة المثالية

ملاحظات على منهجية الاختبار

Your health journey starts with a single question