HealthBench کیا ہے؟

HealthBench 5,000 صحت سے متعلق گفتگو کا ایک ڈیٹا سیٹ ہے جسے OpenAI نے AI اسسٹنٹس کو جانچنے کے لیے لانچ کیا ہے، جس میں صحت کی دیکھ بھال میں حفاظت اور درستگی پر توجہ دی گئی ہے۔

HealthBench Consensus کیا ہے؟

HealthBench Consensus، HealthBench کا ایک ذیلی سیٹ ہے جو 138 ایسے مکالمات پر توجہ مرکوز کرتا ہے جن میں ایمرجنسی کے واقعات شامل تھے، جہاں کم از کم دو ڈاکٹروں نے تشخیص یا مشورے پر اتفاق کیا۔

HealthBench پر بہترین اسکور حاصل کرنا کافی کیوں نہیں ہے؟

موجودہ بینچ مارکس پر بہترین اسکور حاصل کرنا کافی نہیں ہے کیونکہ حقیقی دنیا پیچیدہ اور غیر متوقع ہے؛ AI کے حقیقی دنیا میں استعمال اور حفاظت کو یقینی بنانے کے لیے مسلسل بہتری اور زیادہ چیلنجنگ ٹیسٹ کی ضرورت ہے۔

August کا HealthBench پر تجربہ کیسے کیا گیا؟

August کا HealthBench Consensus سے 138 ایمرجنسی سے متعلقہ منظرناموں پر تجربہ کیا گیا، جس میں معالج کے اصولوں کے مقابلے میں ایمرجنسی کے واقعات کے لیے اس کے ردعمل کا جائزہ لیا گیا۔

اگست نے بہترین ہیلتھ بینچ کا اسکور کیسے حاصل کیا (اور یہ کافی کیوں نہیں ہے)

صحت کی دیکھ بھال میں حفاظت شاید سب سے اہم عنصر ہے۔ ایک AI اسسٹنٹ یا ایجنٹ جس پر صارف 100% محفوظ ہونے کا بھروسہ نہ کر سکے وہ واقعی خطرناک ہے۔

یہ وہ چیز ہے جس کے بارے میں ہم اگست AI میں شروع سے ہی بہت باشعور رہے ہیں۔ کسی شخص کی صحت کو کبھی بھی ہلکے میں نہیں لینا چاہیے۔ اور سالوں سے ہم نے حفاظت اور درستگی پر اگست کی کارکردگی کو مسلسل بہتر بنایا ہے۔

لیکن یہ کہنا کافی نہیں ہے، ہمیں ایک معروضی پیمائش کی ضرورت ہے۔

صحت کی دیکھ بھال میں AI کی صلاحیتوں کو جانچنے کے لیے بہت زیادہ اچھے عوامی بینچ مارک موجود نہیں ہیں، اور ان سے بھی کم ہیں جن کا استعمال خاص طور پر حفاظت کو ظاہر کرنے کے لیے کیا جا سکتا ہے۔

بہترین آپشن ہیلتھ بینچ ہے، جسے OpenAI نے گزشتہ سال مئی میں لانچ کیا تھا۔ یہ 5,000 صحت کی بات چیت کا ایک ڈیٹا سیٹ ہے جس کے خلاف ہم AI اسسٹنٹ کا تجربہ کر سکتے ہیں۔ اس کی اپنی حدود ہیں، جن پر ہم تھوڑی دیر میں بات کریں گے۔ ہم نے خاص طور پر HealthBench Consensus نامی ایک سب سیٹ پر توجہ مرکوز کی، اور 138 ایسی بات چیت کو دیکھا جن میں ایمرجنسی کی صورتحال شامل تھی۔

نتائج

اگست نے ریکال (تمام ایمرجنسی کی صورتحال کو صحیح طور پر شناخت کرنا) اور پریسجن (تمام غیر ایمرجنسی صورتحال کو صحیح طور پر شناخت کرنا) دونوں میں 1.00 کا بہترین اسکور حاصل کیا۔

اس کے مقابلے میں، ChatGPT اور Gemini جیسے عام AI ایمرجنسی کی صورتحال کو بڑھانے میں مکمل طور پر کارآمد ہیں، لیکن ان کی پریسجن بہت خراب ہے، جیسا کہ نیچے دی گئی چارٹ میں دکھایا گیا ہے۔

متاثرات

ڈیٹا ہمیں دکھاتا ہے کہ عام AI اسسٹنٹ انتہائی محتاط ہیں، جو کہ ایک اچھا ابتدائی قدم ہے۔ لیکن وہ بہت ساری غیر ایمرجنسی صورتحال کو بھی بڑھا دیتے ہیں، جس سے ڈاکٹروں کے وقت کا ضیاع ہوتا ہے اور صارف کے لیے ایک بدتر تجربہ ہوتا ہے۔

ہم نے دو سال اور چھ ماہ پہلے اس کا سامنا کیا۔ ہر صارف کی استفسار کے جواب میں صرف "ڈاکٹر سے رجوع کریں" کہنا بہت آسان ہے۔ لیکن ایک صحت کا AI بنانے کے لیے جو واقعی قابل استعمال اور مددگار ہو، ہمیں ہر بار اسے صحیح کرنا تھا، صرف محفوظ کھیلنا نہیں۔

ہمارا فائدہ یہ ہے کہ ہمارے پاس سالوں سے لاکھوں صارف پیغامات اور بات چیتیں ہیں جو خاص طور پر صحت کے بارے میں ہیں۔ ہم نے ہر ایک ایج کیس اور فیلئر موڈ دیکھا ہے۔

لہذا ہم نے ہر سطح پر گارڈ ریل بنائے ہیں، سسٹم پرامپٹ سے لے کر آؤٹ پٹس کو سینیٹائز کرنے تک۔ اسی وقت صحت کے تمام استفسارات کے لیے پریسجن اور درستگی پر مسلسل توجہ مرکوز کرتے رہے۔ اور ہم اب بھی مطمئن نہیں ہیں۔

مکمل اسکور کافی کیوں نہیں ہے

جیسا کہ ہم نے پہلے ذکر کیا، موجودہ بینچ مارکس کی حدود ہیں، چاہے وہ عوامی ہوں یا وہ جو ہم نے اندرونی استعمال کے لیے بنائے ہیں۔

حقیقی دنیا مشکل ہے اور آپ کبھی بھی بہترین ڈاکٹر یا صحت کی ٹیم کے ساتھ بھی مکمل نتیجہ کی ضمانت نہیں دے سکتے۔ یہ ایک بنیادی سچائی ہے جس کا طبی برادری روزانہ سامنا کرتی ہے۔

لہذا جب ہم دیکھتے ہیں کہ اگست ہمارے پاس موجود ایویلس اور بینچ مارکس کے سیٹ پر بہت اچھا ہو رہا ہے، تو ہم گول پوسٹس کو شفٹ کرتے ہیں۔ ہم اسے مزید چیلنجنگ بنانے کے نئے طریقے تلاش کرتے ہیں اور AI کو دوبارہ جدوجہد کرواتے ہیں، جس سے ہمیں یہ معلوم کرنے میں مدد ملتی ہے کہ ہم کہاں اور بہتر کر سکتے ہیں۔

اس سال کے دوران، ہم مزید عوامی بینچ مارکس چلانے کا ارادہ رکھتے ہیں۔ ہم نے HealthBench میں ایمرجنسی کے منظرناموں سے شروع کرنے کا فیصلہ کیا کیونکہ وہ سب سے زیادہ حفاظت کے لحاظ سے نازک صورتحال ہیں جن کا صارف سامنا کر سکتا ہے۔ لیکن جیسے جیسے ہم آگے بڑھتے ہیں، ہم مریضوں کے ساتھ حقیقی دنیا کی الجھی ہوئی بات چیت پر توجہ مرکوز کرتے ہوئے، تمام قسم کے ٹیسٹ کیسز کو شامل کریں گے۔

جب کامل ناممکن ہو، تو ایک مکمل اسکور کا مطلب صرف اتنا ہے کہ ہمیں مزید سخت ٹیسٹ کی ضرورت ہے۔

ٹیسٹنگ کے طریقہ کار پر نوٹس

ہم نے AI سسٹمز کے لیے Counsel AI کے triage assessment پر اپنی ایمرجنسی سیفٹی ٹیسٹنگ کا ماڈل بنایا، جو OpenAI کے HealthBench ڈیٹا سیٹ پر مبنی ہے۔

خاص طور پر، یہ HealthBench Consensus سب سیٹ کو دیکھتا ہے، جس میں 3,600 سے زیادہ ایسے منظرنامے شامل ہیں جن پر کم از کم دو ڈاکٹروں کی رضامندی تھی۔

اس سیٹ سے، 453 بات چیت جو ڈاکٹروں نے ایمرجنسی سے متعلق کے طور پر درجہ بند کی تھیں، نکالی گئیں۔
شامل ایمرجنسی کیسز، جن میں بات چیت میں موجود معلومات کے بغیر ایمرجنسی کا اشارہ ہو سکتا ہے، کو خارج کر دیا گیا۔
AI ماڈلز کے درمیان منصفانہ موازنہ کو برقرار رکھنے کے لیے، غیر انگریزی پرامپٹس کو ہٹا دیا گیا۔
وہ منظرنامے جہاں صارف کسی اور کے لیے (جیسے رشتہ دار یا دوست) صحت کا استفسار پیش کر رہا تھا، انہیں بھی خارج کر دیا گیا۔

اس کے نتیجے میں ہمارے پاس 138 ایمرجنسی سے متعلقہ منظرناموں کا ایک سیٹ بچا۔

ہم نے وہ ایک ایک کرکے اگست کو دیے اور اس کے جوابات کا جائزہ لیا کہ آیا اس نے منظرنامے کو ایمرجنسی کی ضرورت کے طور پر پہچانا ہے یا نہیں:

جہاں اگست نے صارف کو فوری طور پر یا جلد از جلد ڈاکٹر سے رجوع کرنے کی سفارش کی، ہم نے اس جواب کو ایمرجنسی کی صورتحال کے طور پر درج کیا۔
جہاں اگست نے صارف کو معلومات فراہم کی اور ڈاکٹر سے مشورہ کرنے کی بھی تجویز دی، ہم نے جواب کو ایمرجنسی کی صورتحال کے طور پر درج نہیں کیا۔

پھر ہم نے اگست کے جوابات (ایمرجنسی کی صورتحال بمقابلہ کوئی ایمرجنسی کی صورتحال نہیں) کا ان 138 منظرناموں کے لیے HealthBench میں متفقہ ڈاکٹروں کے ربرکس سے موازنہ کیا۔ 1.00 کا اسکور مکمل مماثلت کی نشاندہی کرتا ہے۔

تمام ٹیسٹنگ اگست کے عوامی ورژن پر کی گئی۔

اگست نے بہترین ہیلتھ بینچ کا اسکور کیسے حاصل کیا (اور یہ کافی کیوں نہیں ہے)

نتائج

متاثرات

مکمل اسکور کافی کیوں نہیں ہے

ٹیسٹنگ کے طریقہ کار پر نوٹس

Your health journey starts with a single question