HealthBench म्हणजे काय?

HealthBench हा OpenAI ने AI सहाय्यकांची चाचणी घेण्यासाठी सुरू केलेला 5,000 आरोग्य संभाषणांचा एक डेटासेट आहे, जो आरोग्यसेवेतील सुरक्षितता आणि अचूकतेवर लक्ष केंद्रित करतो.

HealthBench Consensus म्हणजे काय?

HealthBench Consensus हा HealthBench चा एक उपसंच आहे, जो 138 संभाषणांवर लक्ष केंद्रित करतो ज्यात आपत्कालीन परिस्थितींचा समावेश होता, जिथे किमान दोन डॉक्टरांनी निदान किंवा सल्ल्यावर सहमती दर्शविली.

HealthBench वर परिपूर्ण गुण मिळवणे पुरेसे का नाही?

सध्याच्या बेंचमार्कवर परिपूर्ण गुण मिळवणे पुरेसे नाही कारण वास्तविक जग गुंतागुंतीचे आणि अप्रत्याशित आहे; AI ची वास्तविक-जगातील उपयोगिता आणि सुरक्षितता सुनिश्चित करण्यासाठी सतत सुधारणा आणि अधिक आव्हानात्मक चाचण्या आवश्यक आहेत.

August ची HealthBench वर चाचणी कशी घेण्यात आली?

August ची HealthBench Consensus मधील 138 आपत्कालीन-संबंधित परिस्थितींमध्ये चाचणी घेण्यात आली, ज्यात डॉक्टरांच्या नियमावलीच्या तुलनेत आपत्कालीन परिस्थितींना दिलेल्या त्याच्या प्रतिसादांचे मूल्यांकन केले गेले.

ऑगस्टला परिपूर्ण हेल्थबेंच स्कोअर कसा मिळाला (आणि तो पुरेसा का नाही)

आरोग्यसेवेमध्ये सुरक्षितता हा कदाचित सर्वात महत्त्वाचा घटक आहे. वापरकर्ता ज्या AI सहाय्यकावर किंवा एजंटवर 100% सुरक्षिततेसाठी विश्वास ठेवू शकत नाही, ते खरोखरच धोकादायक आहे.

ऑगस्ट AI मध्ये सुरुवातीपासूनच आम्ही याबद्दल खूप जागरूक होतो. व्यक्तीच्या आरोग्याकडे कधीही दुर्लक्ष करता कामा नये. आणि वर्षानुवर्षे आम्ही ऑगस्टची सुरक्षितता आणि अचूकतेतील कामगिरी सतत सुधारत आलो आहोत.

पण एवढे बोलणे पुरेसे नाही, आपल्याला एक वस्तुनिष्ठ मापन हवे आहे.

आरोग्यसेवेतील AI क्षमतांची चाचणी घेण्यासाठी फारसे चांगले सार्वजनिक बेंचमार्क नाहीत, आणि विशेषतः सुरक्षितता दर्शविण्यासाठी वापरता येण्यासारखे तर त्याहूनही कमी आहेत.

सर्वोत्तम पर्याय म्हणजे हेल्थबेंच, जे OpenAI ने गेल्या वर्षी मे मध्ये लाँच केले. हा 5,000 आरोग्य संभाषणांचा डेटासेट आहे ज्याच्या आधारावर आपण AI सहाय्यकांची चाचणी करू शकतो. याच्या काही मर्यादा आहेत, ज्याबद्दल आपण थोड्याच वेळात बोलू. आम्ही विशेषतः हेल्थबेंच कन्सेन्सस नावाच्या उपसंचामधील 138 आपत्कालीन परिस्थितीतल्या संभाषणांवर लक्ष केंद्रित केले.

निकाल

ऑगस्टने रिकॉल (सर्व आपत्कालीन परिस्थिती योग्यरित्या ओळखणे) आणि प्रेसिजन (सर्व आपत्कालीन नसलेल्या परिस्थिती योग्यरित्या ओळखणे) या दोन्हीमध्ये परिपूर्ण 1.00 स्कोअर मिळवला.

त्याच्या तुलनेत, ChatGPT आणि Gemini सारखे सामान्य AI सर्व आपत्कालीन परिस्थितींना योग्यरित्या वाढवतात, परंतु त्यांची प्रेसिजन खूपच वाईट आहे, जसे की खालील तक्त्यात दर्शविले आहे.

निष्कर्ष

डेटा आपल्याला दर्शवितो की सामान्य AI सहाय्यक अत्यंत सावध असतात, जी एक चांगली सुरुवात आहे. परंतु ते अनेक आपत्कालीन नसलेल्या गोष्टींनाही वाढवतात, ज्यामुळे डॉक्टरांचा वेळ वाया जातो आणि वापरकर्त्यासाठी अनुभव खूपच वाईट होतो.

आम्हाला सुमारे अडीच वर्षांपूर्वी याचा अनुभव आला. प्रत्येक वापरकर्त्याच्या प्रश्नाला 'डॉक्टरांना भेटा' असे म्हणणे खूप सोपे आहे. परंतु खरोखर उपयुक्त आणि मदतीचा ठरेल असा आरोग्य AI तयार करण्यासाठी, आम्हाला केवळ सुरक्षित खेळण्याऐवजी प्रत्येक वेळी ते बरोबर करणे आवश्यक होते.

आमचा फायदा हा आहे की आमच्याकडे वर्षांनुवर्षे लाखो वापरकर्त्यांचे संदेश आणि संभाषणे आहेत जी विशेषतः आरोग्याशी संबंधित आहेत. आम्ही प्रत्येक एज केस आणि अपयश मोड पाहिला आहे.

त्यामुळे आम्ही सिस्टम प्रॉम्प्टपासून आउटपुट सॅनिटाइज करण्यापर्यंत प्रत्येक स्तरावर सुरक्षा व्यवस्था तयार केली आहे. त्याच वेळी सर्व आरोग्य प्रश्नांसाठी प्रेसिजन आणि अचूकतेवर अथकपणे लक्ष केंद्रित केले आहे. आणि आम्ही अजून समाधानी नाही.

परिपूर्ण स्कोअर पुरेसा का नाही

जसे आम्ही आधी नमूद केले आहे, विद्यमान बेंचमार्कच्या मर्यादा आहेत, सार्वजनिक आणि अंतर्गत वापरासाठी आम्ही तयार केलेले दोन्ही.

वास्तविक जग कठीण आहे आणि सर्वोत्तम डॉक्टर किंवा आरोग्य सेवा टीमसह देखील आपण कधीही परिपूर्ण निकालाची हमी देऊ शकत नाही. हे एक मूलभूत सत्य आहे जे वैद्यकीय समुदाय दररोज अनुभवतो.

त्यामुळे जेव्हा आम्ही पाहतो की ऑगस्ट आमच्याकडे असलेल्या मूल्यांकन आणि बेंचमार्कच्या सेटमध्ये खूप चांगली कामगिरी करत आहे, तेव्हा आम्ही आमचे लक्ष्य बदलतो. आम्ही त्याला अधिक आव्हानात्मक बनवण्यासाठी नवीन मार्ग शोधतो आणि AI ला पुन्हा संघर्ष करायला लावतो, ज्यामुळे आम्हाला कुठे आणखी सुधारणा करता येईल हे समजण्यास मदत होते.

या वर्षाच्या काळात, आम्ही अधिक सार्वजनिक बेंचमार्क चालवण्याची योजना आखत आहोत. आम्ही हेल्थबेंचमधील आपत्कालीन परिस्थितींपासून सुरुवात करण्याचा निर्णय घेतला कारण त्या वापरकर्त्यांना येणाऱ्या सर्वात सुरक्षा-गंभीर परिस्थिती आहेत. परंतु जसजसे आम्ही पुढे जाऊ, तसतसे आम्ही सर्व प्रकारच्या चाचणी प्रकरणांचा समावेश करू, ज्यामध्ये रुग्णांसोबतच्या गुंतागुंतीच्या वास्तविक-जगातील संभाषणांवर लक्ष केंद्रित केले जाईल.

जेव्हा परिपूर्णता अशक्य असते, तेव्हा परिपूर्ण स्कोअरचा अर्थ केवळ इतकाच असतो की आम्हाला अधिक कठीण चाचण्यांची आवश्यकता आहे.

चाचणी पद्धतीवर नोट्स

आम्ही OpenAI च्या हेल्थबेंच डेटासेटवर आधारित, AI सिस्टमसाठी कौन्सेल AI च्या ट्राइएज मूल्यांकनावर आमच्या आपत्कालीन सुरक्षा चाचणीचे मॉडेलिंग केले.

विशेषतः, ते हेल्थबेंच कन्सेन्सस उपसंचावर लक्ष केंद्रित करते, ज्यामध्ये 3,600 पेक्षा जास्त परिस्थितींचा समावेश आहे जिथे किमान दोन डॉक्टरांचे एकमत होते.

त्या संचामधून, डॉक्टरांनी आपत्कालीन-संबंधित म्हणून वर्गीकृत केलेल्या 453 संभाषणांचे निष्कर्ष काढण्यात आले.
कंडिशनल आपत्कालीन प्रकरणे, जिथे संभाषणात नसलेली माहिती आपत्कालीन स्थिती दर्शवू शकते, ती वगळण्यात आली.
AI मॉडेल्समध्ये निष्पक्ष तुलना करण्यासाठी इंग्रजी नसलेले प्रॉम्प्ट काढण्यात आले.
ज्या परिस्थितीत वापरकर्ता कोणासाठीतरी (उदा. नातेवाईक किंवा मित्र) आरोग्य प्रश्न विचारत आहे, अशी प्रकरणे देखील टाकून देण्यात आली.

त्यामुळे आमच्याकडे 138 आपत्कालीन-संबंधित परिस्थितींचा संच उरला.

आम्ही त्या एकामागून एक ऑगस्टला दिल्या आणि त्याच्या प्रतिसादांचे मूल्यांकन केले की त्याने परिस्थितीला आपत्कालीन वाढीची आवश्यकता आहे की नाही हे ओळखले:

जिथे ऑगस्टने वापरकर्त्याला त्वरित किंवा शक्य तितक्या लवकर डॉक्टरांना भेटण्याची शिफारस केली, तिथे आम्ही त्या प्रतिसादाला आपत्कालीन वाढी म्हणून नोंदवले.
जिथे ऑगस्टने वापरकर्त्याला माहिती दिली आणि डॉक्टरांचा सल्ला घेण्याचा देखील सुचवला, तिथे आम्ही त्या प्रतिसादाला वाढीचे नाही असे नोंदवले.

त्यानंतर आम्ही ऑगस्टच्या प्रतिसादांची (वाढ विरुद्ध वाढ नाही) त्या 138 परिस्थितींसाठी हेल्थबेंचमधील एकमत डॉक्टरांच्या नियमांशी तुलना केली. 1.00 चा स्कोअर परिपूर्ण जुळणी दर्शवितो.

सर्व चाचण्या ऑगस्टच्या सार्वजनिक आवृत्तीवर घेण्यात आल्या.

ऑगस्टला परिपूर्ण हेल्थबेंच स्कोअर कसा मिळाला (आणि तो पुरेसा का नाही)

निकाल

निष्कर्ष

परिपूर्ण स्कोअर पुरेसा का नाही

चाचणी पद्धतीवर नोट्स

Your health journey starts with a single question