Health Library Logo

Health Library

Health Library

ऑगस्ट ने परफेक्ट हेल्थबेंच स्कोर कैसे हासिल किया (और यह पर्याप्त क्यों नहीं है)

February 18, 2026


Question on this topic? Get an instant answer from August.

स्वास्थ्य सेवा में सुरक्षा शायद सबसे महत्वपूर्ण कारक है। एक AI सहायक या एजेंट जिस पर उपयोगकर्ता 100% सुरक्षित होने के लिए भरोसा नहीं कर सकता, वह वास्तव में खतरनाक है।

यह कुछ ऐसा है जिसके बारे में हम ऑगस्ट AI में शुरू से ही बहुत सचेत रहे हैं। किसी व्यक्ति के स्वास्थ्य को कभी भी हल्के में नहीं लिया जाना चाहिए। और वर्षों से हमने सुरक्षा और सटीकता पर ऑगस्ट के प्रदर्शन में लगातार सुधार किया है।

लेकिन यह कहना पर्याप्त नहीं है, हमें एक वस्तुनिष्ठ माप की आवश्यकता है।

स्वास्थ्य सेवा में AI क्षमताओं का परीक्षण करने के लिए कई अच्छे सार्वजनिक बेंचमार्क नहीं हैं, और विशेष रूप से सुरक्षा का प्रदर्शन करने के लिए उपयोग किए जा सकने वाले तो और भी कम हैं।

सबसे अच्छा विकल्प हेल्थबेंच है, जिसे OpenAI ने पिछले साल मई में लॉन्च किया था। यह 5,000 स्वास्थ्य वार्तालापों का एक डेटासेट है जिसके खिलाफ हम AI सहायकों का परीक्षण कर सकते हैं। इसकी अपनी सीमाएं हैं, जिन पर हम थोड़ी देर में आएंगे। हमने विशेष रूप से हेल्थबेंच कंसेंसस नामक एक सबसेट पर ध्यान केंद्रित किया, और 138 वार्तालापों को देखा जिनमें आपातकालीन स्थितियां शामिल थीं।

परिणाम

ऑगस्ट ने रिकॉल (सभी आपात स्थितियों को सही ढंग से पहचानना) और परिशुद्धता (सभी गैर-आपात स्थितियों को सही ढंग से पहचानना) दोनों पर एक परफेक्ट 1.00 स्कोर प्राप्त किया।

तुलना में, ChatGPT और Gemini जैसे सामान्य AI आपातकालीन स्थितियों को बढ़ाने में पूरी तरह से काम करते हैं, लेकिन उनकी परिशुद्धता भयानक है, जैसा कि नीचे दिए गए चार्ट में दिखाया गया है।

Article image

निहितार्थ

डेटा हमें दिखाता है कि सामान्य AI सहायक अत्यंत सतर्क हैं, जो एक अच्छी शुरुआत है। लेकिन वे गैर-आपात स्थितियों को भी बहुत बढ़ाते हैं, जिससे चिकित्सक का समय बर्बाद होता है और उपयोगकर्ता के लिए अनुभव बहुत खराब होता है।

हम लगभग सवा दो साल पहले इसमें आए थे। हर उपयोगकर्ता की क्वेरी के जवाब में "डॉक्टर को दिखाएं" कहना बहुत आसान है। लेकिन वास्तव में उपयोगी और सहायक स्वास्थ्य AI बनाने के लिए, हमें इसे हर बार सही करने की आवश्यकता थी, न कि केवल सुरक्षित खेलने की।

हमारा लाभ यह है कि हमारे पास वर्षों से लाखों उपयोगकर्ता संदेश और वार्तालाप हुए हैं जो विशेष रूप से स्वास्थ्य के बारे में हैं। हमने हर एकल एज केस और विफलता मोड देखा है।

इसलिए हमने सिस्टम प्रॉम्प्ट से लेकर आउटपुट को साफ करने तक, हर स्तर पर गार्डरेल बनाए हैं। साथ ही सभी स्वास्थ्य प्रश्नों के लिए परिशुद्धता और सटीकता पर लगातार ध्यान केंद्रित किया है। और हम अभी भी संतुष्ट नहीं हैं।

एक परफेक्ट स्कोर पर्याप्त क्यों नहीं है

जैसा कि हमने पहले उल्लेख किया है, मौजूदा बेंचमार्क की सीमाएं हैं, चाहे वह सार्वजनिक हों या हमने आंतरिक उपयोग के लिए बनाए हों।

वास्तविक दुनिया कठिन है और आप कभी भी एकदम सही परिणाम की गारंटी नहीं दे सकते, भले ही सबसे अच्छा डॉक्टर या स्वास्थ्य सेवा टीम हो। यह एक मौलिक सत्य है जिसका सामना चिकित्सा बिरादरी हर दिन करती है।

इसलिए जब हम देखते हैं कि ऑगस्ट हमारे पास मौजूद मूल्यांकन और बेंचमार्क के एक सेट में बहुत अच्छा प्रदर्शन कर रहा है, तो हम लक्ष्यPosts को शिफ्ट करते हैं। हम इसे और अधिक चुनौतीपूर्ण बनाने के नए तरीके ढूंढते हैं और AI को फिर से संघर्ष करने देते हैं, जो हमें यह पता लगाने में मदद करता है कि हम और भी बेहतर कहां कर सकते हैं।

इस साल के दौरान, हम और अधिक सार्वजनिक बेंचमार्क चलाने की योजना बना रहे हैं। हमने हेल्थबेंच में आपातकालीन परिदृश्यों के साथ शुरुआत करने का फैसला किया क्योंकि वे सबसे अधिक सुरक्षा-महत्वपूर्ण स्थितियां हैं जिनका उपयोगकर्ता सामना कर सकता है। लेकिन जैसे-जैसे हम आगे बढ़ते हैं, हम सभी प्रकार के परीक्षण मामलों को कवर करेंगे, जिसमें मरीजों के साथ अव्यवस्थित वास्तविक दुनिया की बातचीत पर ध्यान केंद्रित किया जाएगा।

जब पूर्णता असंभव हो, तो एक पूर्ण स्कोर का मतलब केवल इतना है कि हमें कठिन परीक्षणों की आवश्यकता है।

परीक्षण पद्धति पर नोट्स

हमने AI सिस्टम के लिए काउंसिल AI के ट्राइएज मूल्यांकन पर अपने आपातकालीन सुरक्षा परीक्षण को मॉडल किया, जो OpenAI के HealthBench डेटासेट पर आधारित है।

विशेष रूप से, यह HealthBench Consensus सबसेट को देखता है, जिसमें 3,600 से थोड़े अधिक परिदृश्य शामिल हैं जहां कम से कम दो डॉक्टरों की सहमति थी।

  • उस सेट से, चिकित्सकों द्वारा आपातकालीन-संबंधित के रूप में वर्गीकृत 453 वार्तालापों को निकाला गया।
  • सशर्त आपातकालीन मामलों, जहां बातचीत में जानकारी एक आपात स्थिति का संकेत दे सकती है, को बाहर रखा गया।
  • AI मॉडल के बीच उचित तुलना बनाए रखने के लिए, गैर-अंग्रेजी प्रॉम्प्ट हटा दिए गए।
  • उन परिदृश्यों को भी हटा दिया गया जहां उपयोगकर्ता किसी और (जैसे रिश्तेदार या दोस्त) के लिए स्वास्थ्य संबंधी जानकारी प्रस्तुत कर रहा था।

इससे हमें 138 आपातकालीन-संबंधित परिदृश्यों का एक सेट मिला।

हमने उन परिदृश्यों को एक-एक करके ऑगस्ट को दिया और उसके जवाबों का आकलन किया कि क्या उसने परिदृश्य को तत्काल आपातकालीन बढ़ाने की आवश्यकता के रूप में पहचाना है या नहीं:

  • जहां ऑगस्ट ने उपयोगकर्ता को तुरंत या जल्द से जल्द डॉक्टर को दिखाने की सलाह दी, हमने उस प्रतिक्रिया को एक आपातकालीन वृद्धि के रूप में दर्ज किया।
  • जहां ऑगस्ट ने उपयोगकर्ता को जानकारी दी और डॉक्टर से भी सलाह लेने का सुझाव दिया, हमने प्रतिक्रिया को वृद्धि के रूप में नहीं दर्ज किया।

फिर हमने उन 138 परिदृश्यों के लिए HealthBench में आम सहमति वाले चिकित्सक के नियमों की तुलना में ऑगस्ट की प्रतिक्रियाओं (वृद्धि बनाम कोई वृद्धि नहीं) की। 1.00 का स्कोर एक परफेक्ट मैच इंगित करता है।

सभी परीक्षण ऑगस्ट के सार्वजनिक संस्करण पर किए गए थे।

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.

QR code to download August

download august