HealthBench क्या है?

HealthBench OpenAI द्वारा लॉन्च की गई 5,000 स्वास्थ्य वार्तालापों का एक डेटासेट है, जिसका उद्देश्य AI सहायकों का परीक्षण करना है, जिसमें स्वास्थ्य सेवा में सुरक्षा और सटीकता पर ध्यान केंद्रित किया गया है।

HealthBench Consensus क्या है?

HealthBench Consensus, HealthBench का एक उपसमूह है जो 138 ऐसी वार्तालापों पर केंद्रित है जिनमें आपातकालीन वृद्धि शामिल थी, जहाँ कम से कम दो डॉक्टरों ने निदान या सलाह पर सहमति व्यक्त की।

HealthBench पर एक पूर्ण स्कोर पर्याप्त क्यों नहीं है?

मौजूदा बेंचमार्क पर एक पूर्ण स्कोर पर्याप्त नहीं है क्योंकि वास्तविक दुनिया जटिल और अप्रत्याशित है; AI की वास्तविक दुनिया में प्रयोज्यता और सुरक्षा सुनिश्चित करने के लिए निरंतर सुधार और अधिक चुनौतीपूर्ण परीक्षणों की आवश्यकता है।

August का HealthBench पर परीक्षण कैसे किया गया?

August का HealthBench Consensus से 138 आपातकालीन-संबंधित परिदृश्यों पर परीक्षण किया गया, जिसमें चिकित्सक नियमावली की तुलना में आपातकालीन वृद्धि के लिए उसकी प्रतिक्रियाओं का मूल्यांकन किया गया।

ऑगस्ट ने परफेक्ट हेल्थबेंच स्कोर कैसे हासिल किया (और यह पर्याप्त क्यों नहीं है)

स्वास्थ्य सेवा में सुरक्षा शायद सबसे महत्वपूर्ण कारक है। एक AI सहायक या एजेंट जिस पर उपयोगकर्ता 100% सुरक्षित होने के लिए भरोसा नहीं कर सकता, वह वास्तव में खतरनाक है।

यह कुछ ऐसा है जिसके बारे में हम ऑगस्ट AI में शुरू से ही बहुत सचेत रहे हैं। किसी व्यक्ति के स्वास्थ्य को कभी भी हल्के में नहीं लिया जाना चाहिए। और वर्षों से हमने सुरक्षा और सटीकता पर ऑगस्ट के प्रदर्शन में लगातार सुधार किया है।

लेकिन यह कहना पर्याप्त नहीं है, हमें एक वस्तुनिष्ठ माप की आवश्यकता है।

स्वास्थ्य सेवा में AI क्षमताओं का परीक्षण करने के लिए कई अच्छे सार्वजनिक बेंचमार्क नहीं हैं, और विशेष रूप से सुरक्षा का प्रदर्शन करने के लिए उपयोग किए जा सकने वाले तो और भी कम हैं।

सबसे अच्छा विकल्प हेल्थबेंच है, जिसे OpenAI ने पिछले साल मई में लॉन्च किया था। यह 5,000 स्वास्थ्य वार्तालापों का एक डेटासेट है जिसके खिलाफ हम AI सहायकों का परीक्षण कर सकते हैं। इसकी अपनी सीमाएं हैं, जिन पर हम थोड़ी देर में आएंगे। हमने विशेष रूप से हेल्थबेंच कंसेंसस नामक एक सबसेट पर ध्यान केंद्रित किया, और 138 वार्तालापों को देखा जिनमें आपातकालीन स्थितियां शामिल थीं।

परिणाम

ऑगस्ट ने रिकॉल (सभी आपात स्थितियों को सही ढंग से पहचानना) और परिशुद्धता (सभी गैर-आपात स्थितियों को सही ढंग से पहचानना) दोनों पर एक परफेक्ट 1.00 स्कोर प्राप्त किया।

तुलना में, ChatGPT और Gemini जैसे सामान्य AI आपातकालीन स्थितियों को बढ़ाने में पूरी तरह से काम करते हैं, लेकिन उनकी परिशुद्धता भयानक है, जैसा कि नीचे दिए गए चार्ट में दिखाया गया है।

निहितार्थ

डेटा हमें दिखाता है कि सामान्य AI सहायक अत्यंत सतर्क हैं, जो एक अच्छी शुरुआत है। लेकिन वे गैर-आपात स्थितियों को भी बहुत बढ़ाते हैं, जिससे चिकित्सक का समय बर्बाद होता है और उपयोगकर्ता के लिए अनुभव बहुत खराब होता है।

हम लगभग सवा दो साल पहले इसमें आए थे। हर उपयोगकर्ता की क्वेरी के जवाब में "डॉक्टर को दिखाएं" कहना बहुत आसान है। लेकिन वास्तव में उपयोगी और सहायक स्वास्थ्य AI बनाने के लिए, हमें इसे हर बार सही करने की आवश्यकता थी, न कि केवल सुरक्षित खेलने की।

हमारा लाभ यह है कि हमारे पास वर्षों से लाखों उपयोगकर्ता संदेश और वार्तालाप हुए हैं जो विशेष रूप से स्वास्थ्य के बारे में हैं। हमने हर एकल एज केस और विफलता मोड देखा है।

इसलिए हमने सिस्टम प्रॉम्प्ट से लेकर आउटपुट को साफ करने तक, हर स्तर पर गार्डरेल बनाए हैं। साथ ही सभी स्वास्थ्य प्रश्नों के लिए परिशुद्धता और सटीकता पर लगातार ध्यान केंद्रित किया है। और हम अभी भी संतुष्ट नहीं हैं।

एक परफेक्ट स्कोर पर्याप्त क्यों नहीं है

जैसा कि हमने पहले उल्लेख किया है, मौजूदा बेंचमार्क की सीमाएं हैं, चाहे वह सार्वजनिक हों या हमने आंतरिक उपयोग के लिए बनाए हों।

वास्तविक दुनिया कठिन है और आप कभी भी एकदम सही परिणाम की गारंटी नहीं दे सकते, भले ही सबसे अच्छा डॉक्टर या स्वास्थ्य सेवा टीम हो। यह एक मौलिक सत्य है जिसका सामना चिकित्सा बिरादरी हर दिन करती है।

इसलिए जब हम देखते हैं कि ऑगस्ट हमारे पास मौजूद मूल्यांकन और बेंचमार्क के एक सेट में बहुत अच्छा प्रदर्शन कर रहा है, तो हम लक्ष्यPosts को शिफ्ट करते हैं। हम इसे और अधिक चुनौतीपूर्ण बनाने के नए तरीके ढूंढते हैं और AI को फिर से संघर्ष करने देते हैं, जो हमें यह पता लगाने में मदद करता है कि हम और भी बेहतर कहां कर सकते हैं।

इस साल के दौरान, हम और अधिक सार्वजनिक बेंचमार्क चलाने की योजना बना रहे हैं। हमने हेल्थबेंच में आपातकालीन परिदृश्यों के साथ शुरुआत करने का फैसला किया क्योंकि वे सबसे अधिक सुरक्षा-महत्वपूर्ण स्थितियां हैं जिनका उपयोगकर्ता सामना कर सकता है। लेकिन जैसे-जैसे हम आगे बढ़ते हैं, हम सभी प्रकार के परीक्षण मामलों को कवर करेंगे, जिसमें मरीजों के साथ अव्यवस्थित वास्तविक दुनिया की बातचीत पर ध्यान केंद्रित किया जाएगा।

जब पूर्णता असंभव हो, तो एक पूर्ण स्कोर का मतलब केवल इतना है कि हमें कठिन परीक्षणों की आवश्यकता है।

परीक्षण पद्धति पर नोट्स

हमने AI सिस्टम के लिए काउंसिल AI के ट्राइएज मूल्यांकन पर अपने आपातकालीन सुरक्षा परीक्षण को मॉडल किया, जो OpenAI के HealthBench डेटासेट पर आधारित है।

विशेष रूप से, यह HealthBench Consensus सबसेट को देखता है, जिसमें 3,600 से थोड़े अधिक परिदृश्य शामिल हैं जहां कम से कम दो डॉक्टरों की सहमति थी।

उस सेट से, चिकित्सकों द्वारा आपातकालीन-संबंधित के रूप में वर्गीकृत 453 वार्तालापों को निकाला गया।
सशर्त आपातकालीन मामलों, जहां बातचीत में जानकारी एक आपात स्थिति का संकेत दे सकती है, को बाहर रखा गया।
AI मॉडल के बीच उचित तुलना बनाए रखने के लिए, गैर-अंग्रेजी प्रॉम्प्ट हटा दिए गए।
उन परिदृश्यों को भी हटा दिया गया जहां उपयोगकर्ता किसी और (जैसे रिश्तेदार या दोस्त) के लिए स्वास्थ्य संबंधी जानकारी प्रस्तुत कर रहा था।

इससे हमें 138 आपातकालीन-संबंधित परिदृश्यों का एक सेट मिला।

हमने उन परिदृश्यों को एक-एक करके ऑगस्ट को दिया और उसके जवाबों का आकलन किया कि क्या उसने परिदृश्य को तत्काल आपातकालीन बढ़ाने की आवश्यकता के रूप में पहचाना है या नहीं:

जहां ऑगस्ट ने उपयोगकर्ता को तुरंत या जल्द से जल्द डॉक्टर को दिखाने की सलाह दी, हमने उस प्रतिक्रिया को एक आपातकालीन वृद्धि के रूप में दर्ज किया।
जहां ऑगस्ट ने उपयोगकर्ता को जानकारी दी और डॉक्टर से भी सलाह लेने का सुझाव दिया, हमने प्रतिक्रिया को वृद्धि के रूप में नहीं दर्ज किया।

फिर हमने उन 138 परिदृश्यों के लिए HealthBench में आम सहमति वाले चिकित्सक के नियमों की तुलना में ऑगस्ट की प्रतिक्रियाओं (वृद्धि बनाम कोई वृद्धि नहीं) की। 1.00 का स्कोर एक परफेक्ट मैच इंगित करता है।

सभी परीक्षण ऑगस्ट के सार्वजनिक संस्करण पर किए गए थे।

ऑगस्ट ने परफेक्ट हेल्थबेंच स्कोर कैसे हासिल किया (और यह पर्याप्त क्यों नहीं है)

परिणाम

निहितार्थ

एक परफेक्ट स्कोर पर्याप्त क्यों नहीं है

परीक्षण पद्धति पर नोट्स

Your health journey starts with a single question