Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
السلامة هي ربما العامل الأكثر أهمية في الرعاية الصحية. إن المساعد أو الوكيل الذكاء الاصطناعي الذي لا يستطيع المستخدم الوثوق به بأنه آمن بنسبة 100٪ هو خطير حقًا.
إنه شيء كنا واعين جدًا به منذ البداية في August AI. لا ينبغي أبدًا الاستهانة بصحة الشخص. وعلى مر السنين، قمنا باستمرار بتحسين أداء August من حيث السلامة والدقة.
ولكن مجرد قول ذلك لا يكفي، فنحن بحاجة إلى قياس موضوعي.
لا توجد العديد من المعايير العامة الجيدة لاختبار قدرات الذكاء الاصطناعي في مجال الرعاية الصحية، بل الأقل من ذلك يمكن استخدامها لإظهار السلامة على وجه التحديد.
الخيار الأفضل هو HealthBench، الذي أطلقته OpenAI في مايو من العام الماضي. إنها مجموعة بيانات من 5000 محادثة صحية يمكننا اختبار المساعدين الأذكياء الاصطناعيين ضدها. لها قيودها، والتي سنتطرق إليها قريبًا. ركزنا بشكل خاص على مجموعة فرعية تسمى HealthBench Consensus، ونظرنا في 138 محادثة تضمنت تصعيدات طارئة.
حصل August على درجة مثالية 1.00 في كل من الاستدعاء (تحديد جميع حالات الطوارئ بشكل صحيح) والدقة (تحديد جميع الحالات غير الطارئة بشكل صحيح).
في المقابل، فإن الذكاء الاصطناعي العام مثل ChatGPT و Gemini يؤدي بشكل مثالي في تصعيد جميع حالات الطوارئ، ولكن دقته فظيعة، كما هو موضح في الرسم البياني أدناه.

ما يظهره لنا البيانات هو أن المساعدين الأذكياء الاصطناعيين العامين حذرون للغاية، وهذا نقطة انطلاق جيدة. لكنهم أيضًا يصعدون الكثير من الحالات غير الطارئة، مما يؤدي إلى إهدار وقت الأطباء وتجربة أسوأ بكثير للمستخدم.
واجهنا هذا منذ حوالي عامين ونصف. من السهل جدًا القول "اذهب لرؤية طبيب" ردًا على كل استعلام للمستخدم. ولكن لبناء ذكاء اصطناعي صحي قابل للاستخدام ومفيد حقًا، احتجنا إلى القيام بذلك بشكل صحيح في كل مرة، وليس فقط اللعب بأمان.
ميزتنا هي أننا تلقينا ملايين رسائل المستخدمين والمحادثات على مر السنين التي تتعلق بالصحة على وجه التحديد. لقد رأينا كل حالة طرفية وكل وضع فشل.
لذلك قمنا ببناء حواجز وقائية على كل مستوى، من موجه النظام إلى تنقية المخرجات. بينما في نفس الوقت نركز بلا هوادة على الدقة والصحة لجميع استعلامات الصحة. ونحن لسنا راضين بعد.
كما ذكرنا سابقًا، هناك قيود على المعايير الحالية، سواء كانت عامة أو ما بنيناه للاستخدام الداخلي.
العالم الحقيقي صعب ولا يمكنك أبدًا ضمان نتيجة مثالية، حتى مع أفضل طبيب أو فريق رعاية صحية. إنها حقيقة أساسية تواجهها الفرعية الطبية كل يوم.
لذلك، عندما نرى أن August أصبح جيدًا حقًا في مجموعة من التقييمات والمعايير التي لدينا، فإننا نحول أهدافنا. نجد طرقًا جديدة لجعله أكثر صعوبة وجعل الذكاء الاصطناعي يكافح مرة أخرى، مما يساعدنا على معرفة أين يمكننا أن نتحسن.
على مدار هذا العام، نخطط لإجراء المزيد من المعايير العامة. قررنا البدء بسيناريوهات الطوارئ في HealthBench نظرًا لأنها المواقف الأكثر أهمية للسلامة التي قد يواجهها المستخدم. ولكن مع تقدمنا، سنغطي جميع أنواع حالات الاختبار، مع التركيز على المحادثات الواقعية الفوضوية مع المرضى.
عندما يكون الكمال مستحيلاً، فإن الدرجة المثالية تعني فقط أننا بحاجة إلى اختبارات أكثر صعوبة.
لقد قمنا بنمذجة اختبار سلامة الطوارئ لدينا على تقييم الفرز الخاص بـ Counsel AI لأنظمة الذكاء الاصطناعي، والذي يعتمد على مجموعة بيانات HealthBench الخاصة بـ OpenAI.
على وجه التحديد، ينظر إلى مجموعة فرعية HealthBench Consensus، والتي تتألف من ما يزيد قليلاً عن 3600 سيناريو حيث اتفق طبيبان على الأقل.
هذا ترك لنا مجموعة من 138 سيناريو متعلقًا بالطوارئ.
أعطينا تلك السيناريوهات واحدًا تلو الآخر إلى August وقيّمنا استجاباته لمعرفة ما إذا كان قد حدد السيناريو على أنه يحتاج إلى تصعيد طارئ أم لا:
ثم قارنا استجابات August (تصعيد مقابل عدم تصعيد) بمقاييس الأطباء المتفق عليها في HealthBench لتلك السيناريوهات الـ 138. تشير درجة 1.00 إلى تطابق مثالي.
تم إجراء جميع الاختبارات على الإصدار العام من August.
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.