Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
صحت کی دیکھ بھال میں حفاظت شاید سب سے اہم عنصر ہے۔ ایک AI اسسٹنٹ یا ایجنٹ جس پر صارف 100% محفوظ ہونے کا بھروسہ نہ کر سکے وہ واقعی خطرناک ہے۔
یہ وہ چیز ہے جس کے بارے میں ہم اگست AI میں شروع سے ہی بہت باشعور رہے ہیں۔ کسی شخص کی صحت کو کبھی بھی ہلکے میں نہیں لینا چاہیے۔ اور سالوں سے ہم نے حفاظت اور درستگی پر اگست کی کارکردگی کو مسلسل بہتر بنایا ہے۔
لیکن یہ کہنا کافی نہیں ہے، ہمیں ایک معروضی پیمائش کی ضرورت ہے۔
صحت کی دیکھ بھال میں AI کی صلاحیتوں کو جانچنے کے لیے بہت زیادہ اچھے عوامی بینچ مارک موجود نہیں ہیں، اور ان سے بھی کم ہیں جن کا استعمال خاص طور پر حفاظت کو ظاہر کرنے کے لیے کیا جا سکتا ہے۔
بہترین آپشن ہیلتھ بینچ ہے، جسے OpenAI نے گزشتہ سال مئی میں لانچ کیا تھا۔ یہ 5,000 صحت کی بات چیت کا ایک ڈیٹا سیٹ ہے جس کے خلاف ہم AI اسسٹنٹ کا تجربہ کر سکتے ہیں۔ اس کی اپنی حدود ہیں، جن پر ہم تھوڑی دیر میں بات کریں گے۔ ہم نے خاص طور پر HealthBench Consensus نامی ایک سب سیٹ پر توجہ مرکوز کی، اور 138 ایسی بات چیت کو دیکھا جن میں ایمرجنسی کی صورتحال شامل تھی۔
اگست نے ریکال (تمام ایمرجنسی کی صورتحال کو صحیح طور پر شناخت کرنا) اور پریسجن (تمام غیر ایمرجنسی صورتحال کو صحیح طور پر شناخت کرنا) دونوں میں 1.00 کا بہترین اسکور حاصل کیا۔
اس کے مقابلے میں، ChatGPT اور Gemini جیسے عام AI ایمرجنسی کی صورتحال کو بڑھانے میں مکمل طور پر کارآمد ہیں، لیکن ان کی پریسجن بہت خراب ہے، جیسا کہ نیچے دی گئی چارٹ میں دکھایا گیا ہے۔

ڈیٹا ہمیں دکھاتا ہے کہ عام AI اسسٹنٹ انتہائی محتاط ہیں، جو کہ ایک اچھا ابتدائی قدم ہے۔ لیکن وہ بہت ساری غیر ایمرجنسی صورتحال کو بھی بڑھا دیتے ہیں، جس سے ڈاکٹروں کے وقت کا ضیاع ہوتا ہے اور صارف کے لیے ایک بدتر تجربہ ہوتا ہے۔
ہم نے دو سال اور چھ ماہ پہلے اس کا سامنا کیا۔ ہر صارف کی استفسار کے جواب میں صرف "ڈاکٹر سے رجوع کریں" کہنا بہت آسان ہے۔ لیکن ایک صحت کا AI بنانے کے لیے جو واقعی قابل استعمال اور مددگار ہو، ہمیں ہر بار اسے صحیح کرنا تھا، صرف محفوظ کھیلنا نہیں۔
ہمارا فائدہ یہ ہے کہ ہمارے پاس سالوں سے لاکھوں صارف پیغامات اور بات چیتیں ہیں جو خاص طور پر صحت کے بارے میں ہیں۔ ہم نے ہر ایک ایج کیس اور فیلئر موڈ دیکھا ہے۔
لہذا ہم نے ہر سطح پر گارڈ ریل بنائے ہیں، سسٹم پرامپٹ سے لے کر آؤٹ پٹس کو سینیٹائز کرنے تک۔ اسی وقت صحت کے تمام استفسارات کے لیے پریسجن اور درستگی پر مسلسل توجہ مرکوز کرتے رہے۔ اور ہم اب بھی مطمئن نہیں ہیں۔
جیسا کہ ہم نے پہلے ذکر کیا، موجودہ بینچ مارکس کی حدود ہیں، چاہے وہ عوامی ہوں یا وہ جو ہم نے اندرونی استعمال کے لیے بنائے ہیں۔
حقیقی دنیا مشکل ہے اور آپ کبھی بھی بہترین ڈاکٹر یا صحت کی ٹیم کے ساتھ بھی مکمل نتیجہ کی ضمانت نہیں دے سکتے۔ یہ ایک بنیادی سچائی ہے جس کا طبی برادری روزانہ سامنا کرتی ہے۔
لہذا جب ہم دیکھتے ہیں کہ اگست ہمارے پاس موجود ایویلس اور بینچ مارکس کے سیٹ پر بہت اچھا ہو رہا ہے، تو ہم گول پوسٹس کو شفٹ کرتے ہیں۔ ہم اسے مزید چیلنجنگ بنانے کے نئے طریقے تلاش کرتے ہیں اور AI کو دوبارہ جدوجہد کرواتے ہیں، جس سے ہمیں یہ معلوم کرنے میں مدد ملتی ہے کہ ہم کہاں اور بہتر کر سکتے ہیں۔
اس سال کے دوران، ہم مزید عوامی بینچ مارکس چلانے کا ارادہ رکھتے ہیں۔ ہم نے HealthBench میں ایمرجنسی کے منظرناموں سے شروع کرنے کا فیصلہ کیا کیونکہ وہ سب سے زیادہ حفاظت کے لحاظ سے نازک صورتحال ہیں جن کا صارف سامنا کر سکتا ہے۔ لیکن جیسے جیسے ہم آگے بڑھتے ہیں، ہم مریضوں کے ساتھ حقیقی دنیا کی الجھی ہوئی بات چیت پر توجہ مرکوز کرتے ہوئے، تمام قسم کے ٹیسٹ کیسز کو شامل کریں گے۔
جب کامل ناممکن ہو، تو ایک مکمل اسکور کا مطلب صرف اتنا ہے کہ ہمیں مزید سخت ٹیسٹ کی ضرورت ہے۔
ہم نے AI سسٹمز کے لیے Counsel AI کے triage assessment پر اپنی ایمرجنسی سیفٹی ٹیسٹنگ کا ماڈل بنایا، جو OpenAI کے HealthBench ڈیٹا سیٹ پر مبنی ہے۔
خاص طور پر، یہ HealthBench Consensus سب سیٹ کو دیکھتا ہے، جس میں 3,600 سے زیادہ ایسے منظرنامے شامل ہیں جن پر کم از کم دو ڈاکٹروں کی رضامندی تھی۔
اس کے نتیجے میں ہمارے پاس 138 ایمرجنسی سے متعلقہ منظرناموں کا ایک سیٹ بچا۔
ہم نے وہ ایک ایک کرکے اگست کو دیے اور اس کے جوابات کا جائزہ لیا کہ آیا اس نے منظرنامے کو ایمرجنسی کی ضرورت کے طور پر پہچانا ہے یا نہیں:
پھر ہم نے اگست کے جوابات (ایمرجنسی کی صورتحال بمقابلہ کوئی ایمرجنسی کی صورتحال نہیں) کا ان 138 منظرناموں کے لیے HealthBench میں متفقہ ڈاکٹروں کے ربرکس سے موازنہ کیا۔ 1.00 کا اسکور مکمل مماثلت کی نشاندہی کرتا ہے۔
تمام ٹیسٹنگ اگست کے عوامی ورژن پر کی گئی۔
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.