Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
स्वास्थ्य सेवा में सुरक्षा शायद सबसे महत्वपूर्ण कारक है। एक AI सहायक या एजेंट जिस पर उपयोगकर्ता 100% सुरक्षित होने के लिए भरोसा नहीं कर सकता, वह वास्तव में खतरनाक है।
यह कुछ ऐसा है जिसके बारे में हम ऑगस्ट AI में शुरू से ही बहुत सचेत रहे हैं। किसी व्यक्ति के स्वास्थ्य को कभी भी हल्के में नहीं लिया जाना चाहिए। और वर्षों से हमने सुरक्षा और सटीकता पर ऑगस्ट के प्रदर्शन में लगातार सुधार किया है।
लेकिन यह कहना पर्याप्त नहीं है, हमें एक वस्तुनिष्ठ माप की आवश्यकता है।
स्वास्थ्य सेवा में AI क्षमताओं का परीक्षण करने के लिए कई अच्छे सार्वजनिक बेंचमार्क नहीं हैं, और विशेष रूप से सुरक्षा का प्रदर्शन करने के लिए उपयोग किए जा सकने वाले तो और भी कम हैं।
सबसे अच्छा विकल्प हेल्थबेंच है, जिसे OpenAI ने पिछले साल मई में लॉन्च किया था। यह 5,000 स्वास्थ्य वार्तालापों का एक डेटासेट है जिसके खिलाफ हम AI सहायकों का परीक्षण कर सकते हैं। इसकी अपनी सीमाएं हैं, जिन पर हम थोड़ी देर में आएंगे। हमने विशेष रूप से हेल्थबेंच कंसेंसस नामक एक सबसेट पर ध्यान केंद्रित किया, और 138 वार्तालापों को देखा जिनमें आपातकालीन स्थितियां शामिल थीं।
ऑगस्ट ने रिकॉल (सभी आपात स्थितियों को सही ढंग से पहचानना) और परिशुद्धता (सभी गैर-आपात स्थितियों को सही ढंग से पहचानना) दोनों पर एक परफेक्ट 1.00 स्कोर प्राप्त किया।
तुलना में, ChatGPT और Gemini जैसे सामान्य AI आपातकालीन स्थितियों को बढ़ाने में पूरी तरह से काम करते हैं, लेकिन उनकी परिशुद्धता भयानक है, जैसा कि नीचे दिए गए चार्ट में दिखाया गया है।

डेटा हमें दिखाता है कि सामान्य AI सहायक अत्यंत सतर्क हैं, जो एक अच्छी शुरुआत है। लेकिन वे गैर-आपात स्थितियों को भी बहुत बढ़ाते हैं, जिससे चिकित्सक का समय बर्बाद होता है और उपयोगकर्ता के लिए अनुभव बहुत खराब होता है।
हम लगभग सवा दो साल पहले इसमें आए थे। हर उपयोगकर्ता की क्वेरी के जवाब में "डॉक्टर को दिखाएं" कहना बहुत आसान है। लेकिन वास्तव में उपयोगी और सहायक स्वास्थ्य AI बनाने के लिए, हमें इसे हर बार सही करने की आवश्यकता थी, न कि केवल सुरक्षित खेलने की।
हमारा लाभ यह है कि हमारे पास वर्षों से लाखों उपयोगकर्ता संदेश और वार्तालाप हुए हैं जो विशेष रूप से स्वास्थ्य के बारे में हैं। हमने हर एकल एज केस और विफलता मोड देखा है।
इसलिए हमने सिस्टम प्रॉम्प्ट से लेकर आउटपुट को साफ करने तक, हर स्तर पर गार्डरेल बनाए हैं। साथ ही सभी स्वास्थ्य प्रश्नों के लिए परिशुद्धता और सटीकता पर लगातार ध्यान केंद्रित किया है। और हम अभी भी संतुष्ट नहीं हैं।
जैसा कि हमने पहले उल्लेख किया है, मौजूदा बेंचमार्क की सीमाएं हैं, चाहे वह सार्वजनिक हों या हमने आंतरिक उपयोग के लिए बनाए हों।
वास्तविक दुनिया कठिन है और आप कभी भी एकदम सही परिणाम की गारंटी नहीं दे सकते, भले ही सबसे अच्छा डॉक्टर या स्वास्थ्य सेवा टीम हो। यह एक मौलिक सत्य है जिसका सामना चिकित्सा बिरादरी हर दिन करती है।
इसलिए जब हम देखते हैं कि ऑगस्ट हमारे पास मौजूद मूल्यांकन और बेंचमार्क के एक सेट में बहुत अच्छा प्रदर्शन कर रहा है, तो हम लक्ष्यPosts को शिफ्ट करते हैं। हम इसे और अधिक चुनौतीपूर्ण बनाने के नए तरीके ढूंढते हैं और AI को फिर से संघर्ष करने देते हैं, जो हमें यह पता लगाने में मदद करता है कि हम और भी बेहतर कहां कर सकते हैं।
इस साल के दौरान, हम और अधिक सार्वजनिक बेंचमार्क चलाने की योजना बना रहे हैं। हमने हेल्थबेंच में आपातकालीन परिदृश्यों के साथ शुरुआत करने का फैसला किया क्योंकि वे सबसे अधिक सुरक्षा-महत्वपूर्ण स्थितियां हैं जिनका उपयोगकर्ता सामना कर सकता है। लेकिन जैसे-जैसे हम आगे बढ़ते हैं, हम सभी प्रकार के परीक्षण मामलों को कवर करेंगे, जिसमें मरीजों के साथ अव्यवस्थित वास्तविक दुनिया की बातचीत पर ध्यान केंद्रित किया जाएगा।
जब पूर्णता असंभव हो, तो एक पूर्ण स्कोर का मतलब केवल इतना है कि हमें कठिन परीक्षणों की आवश्यकता है।
हमने AI सिस्टम के लिए काउंसिल AI के ट्राइएज मूल्यांकन पर अपने आपातकालीन सुरक्षा परीक्षण को मॉडल किया, जो OpenAI के HealthBench डेटासेट पर आधारित है।
विशेष रूप से, यह HealthBench Consensus सबसेट को देखता है, जिसमें 3,600 से थोड़े अधिक परिदृश्य शामिल हैं जहां कम से कम दो डॉक्टरों की सहमति थी।
इससे हमें 138 आपातकालीन-संबंधित परिदृश्यों का एक सेट मिला।
हमने उन परिदृश्यों को एक-एक करके ऑगस्ट को दिया और उसके जवाबों का आकलन किया कि क्या उसने परिदृश्य को तत्काल आपातकालीन बढ़ाने की आवश्यकता के रूप में पहचाना है या नहीं:
फिर हमने उन 138 परिदृश्यों के लिए HealthBench में आम सहमति वाले चिकित्सक के नियमों की तुलना में ऑगस्ट की प्रतिक्रियाओं (वृद्धि बनाम कोई वृद्धि नहीं) की। 1.00 का स्कोर एक परफेक्ट मैच इंगित करता है।
सभी परीक्षण ऑगस्ट के सार्वजनिक संस्करण पर किए गए थे।
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.