Health Library Logo

Health Library

Health Library

ऑगस्टला परिपूर्ण हेल्थबेंच स्कोअर कसा मिळाला (आणि तो पुरेसा का नाही)

February 18, 2026


Question on this topic? Get an instant answer from August.

आरोग्यसेवेमध्ये सुरक्षितता हा कदाचित सर्वात महत्त्वाचा घटक आहे. वापरकर्ता ज्या AI सहाय्यकावर किंवा एजंटवर 100% सुरक्षिततेसाठी विश्वास ठेवू शकत नाही, ते खरोखरच धोकादायक आहे.

ऑगस्ट AI मध्ये सुरुवातीपासूनच आम्ही याबद्दल खूप जागरूक होतो. व्यक्तीच्या आरोग्याकडे कधीही दुर्लक्ष करता कामा नये. आणि वर्षानुवर्षे आम्ही ऑगस्टची सुरक्षितता आणि अचूकतेतील कामगिरी सतत सुधारत आलो आहोत.

पण एवढे बोलणे पुरेसे नाही, आपल्याला एक वस्तुनिष्ठ मापन हवे आहे.

आरोग्यसेवेतील AI क्षमतांची चाचणी घेण्यासाठी फारसे चांगले सार्वजनिक बेंचमार्क नाहीत, आणि विशेषतः सुरक्षितता दर्शविण्यासाठी वापरता येण्यासारखे तर त्याहूनही कमी आहेत.

सर्वोत्तम पर्याय म्हणजे हेल्थबेंच, जे OpenAI ने गेल्या वर्षी मे मध्ये लाँच केले. हा 5,000 आरोग्य संभाषणांचा डेटासेट आहे ज्याच्या आधारावर आपण AI सहाय्यकांची चाचणी करू शकतो. याच्या काही मर्यादा आहेत, ज्याबद्दल आपण थोड्याच वेळात बोलू. आम्ही विशेषतः हेल्थबेंच कन्सेन्सस नावाच्या उपसंचामधील 138 आपत्कालीन परिस्थितीतल्या संभाषणांवर लक्ष केंद्रित केले.

निकाल

ऑगस्टने रिकॉल (सर्व आपत्कालीन परिस्थिती योग्यरित्या ओळखणे) आणि प्रेसिजन (सर्व आपत्कालीन नसलेल्या परिस्थिती योग्यरित्या ओळखणे) या दोन्हीमध्ये परिपूर्ण 1.00 स्कोअर मिळवला.

त्याच्या तुलनेत, ChatGPT आणि Gemini सारखे सामान्य AI सर्व आपत्कालीन परिस्थितींना योग्यरित्या वाढवतात, परंतु त्यांची प्रेसिजन खूपच वाईट आहे, जसे की खालील तक्त्यात दर्शविले आहे.

Article image

निष्कर्ष

डेटा आपल्याला दर्शवितो की सामान्य AI सहाय्यक अत्यंत सावध असतात, जी एक चांगली सुरुवात आहे. परंतु ते अनेक आपत्कालीन नसलेल्या गोष्टींनाही वाढवतात, ज्यामुळे डॉक्टरांचा वेळ वाया जातो आणि वापरकर्त्यासाठी अनुभव खूपच वाईट होतो.

आम्हाला सुमारे अडीच वर्षांपूर्वी याचा अनुभव आला. प्रत्येक वापरकर्त्याच्या प्रश्नाला 'डॉक्टरांना भेटा' असे म्हणणे खूप सोपे आहे. परंतु खरोखर उपयुक्त आणि मदतीचा ठरेल असा आरोग्य AI तयार करण्यासाठी, आम्हाला केवळ सुरक्षित खेळण्याऐवजी प्रत्येक वेळी ते बरोबर करणे आवश्यक होते.

आमचा फायदा हा आहे की आमच्याकडे वर्षांनुवर्षे लाखो वापरकर्त्यांचे संदेश आणि संभाषणे आहेत जी विशेषतः आरोग्याशी संबंधित आहेत. आम्ही प्रत्येक एज केस आणि अपयश मोड पाहिला आहे.

त्यामुळे आम्ही सिस्टम प्रॉम्प्टपासून आउटपुट सॅनिटाइज करण्यापर्यंत प्रत्येक स्तरावर सुरक्षा व्यवस्था तयार केली आहे. त्याच वेळी सर्व आरोग्य प्रश्नांसाठी प्रेसिजन आणि अचूकतेवर अथकपणे लक्ष केंद्रित केले आहे. आणि आम्ही अजून समाधानी नाही.

परिपूर्ण स्कोअर पुरेसा का नाही

जसे आम्ही आधी नमूद केले आहे, विद्यमान बेंचमार्कच्या मर्यादा आहेत, सार्वजनिक आणि अंतर्गत वापरासाठी आम्ही तयार केलेले दोन्ही.

वास्तविक जग कठीण आहे आणि सर्वोत्तम डॉक्टर किंवा आरोग्य सेवा टीमसह देखील आपण कधीही परिपूर्ण निकालाची हमी देऊ शकत नाही. हे एक मूलभूत सत्य आहे जे वैद्यकीय समुदाय दररोज अनुभवतो.

त्यामुळे जेव्हा आम्ही पाहतो की ऑगस्ट आमच्याकडे असलेल्या मूल्यांकन आणि बेंचमार्कच्या सेटमध्ये खूप चांगली कामगिरी करत आहे, तेव्हा आम्ही आमचे लक्ष्य बदलतो. आम्ही त्याला अधिक आव्हानात्मक बनवण्यासाठी नवीन मार्ग शोधतो आणि AI ला पुन्हा संघर्ष करायला लावतो, ज्यामुळे आम्हाला कुठे आणखी सुधारणा करता येईल हे समजण्यास मदत होते.

या वर्षाच्या काळात, आम्ही अधिक सार्वजनिक बेंचमार्क चालवण्याची योजना आखत आहोत. आम्ही हेल्थबेंचमधील आपत्कालीन परिस्थितींपासून सुरुवात करण्याचा निर्णय घेतला कारण त्या वापरकर्त्यांना येणाऱ्या सर्वात सुरक्षा-गंभीर परिस्थिती आहेत. परंतु जसजसे आम्ही पुढे जाऊ, तसतसे आम्ही सर्व प्रकारच्या चाचणी प्रकरणांचा समावेश करू, ज्यामध्ये रुग्णांसोबतच्या गुंतागुंतीच्या वास्तविक-जगातील संभाषणांवर लक्ष केंद्रित केले जाईल.

जेव्हा परिपूर्णता अशक्य असते, तेव्हा परिपूर्ण स्कोअरचा अर्थ केवळ इतकाच असतो की आम्हाला अधिक कठीण चाचण्यांची आवश्यकता आहे.

चाचणी पद्धतीवर नोट्स

आम्ही OpenAI च्या हेल्थबेंच डेटासेटवर आधारित, AI सिस्टमसाठी कौन्सेल AI च्या ट्राइएज मूल्यांकनावर आमच्या आपत्कालीन सुरक्षा चाचणीचे मॉडेलिंग केले.

विशेषतः, ते हेल्थबेंच कन्सेन्सस उपसंचावर लक्ष केंद्रित करते, ज्यामध्ये 3,600 पेक्षा जास्त परिस्थितींचा समावेश आहे जिथे किमान दोन डॉक्टरांचे एकमत होते.

  • त्या संचामधून, डॉक्टरांनी आपत्कालीन-संबंधित म्हणून वर्गीकृत केलेल्या 453 संभाषणांचे निष्कर्ष काढण्यात आले.
  • कंडिशनल आपत्कालीन प्रकरणे, जिथे संभाषणात नसलेली माहिती आपत्कालीन स्थिती दर्शवू शकते, ती वगळण्यात आली.
  • AI मॉडेल्समध्ये निष्पक्ष तुलना करण्यासाठी इंग्रजी नसलेले प्रॉम्प्ट काढण्यात आले.
  • ज्या परिस्थितीत वापरकर्ता कोणासाठीतरी (उदा. नातेवाईक किंवा मित्र) आरोग्य प्रश्न विचारत आहे, अशी प्रकरणे देखील टाकून देण्यात आली.

त्यामुळे आमच्याकडे 138 आपत्कालीन-संबंधित परिस्थितींचा संच उरला.

आम्ही त्या एकामागून एक ऑगस्टला दिल्या आणि त्याच्या प्रतिसादांचे मूल्यांकन केले की त्याने परिस्थितीला आपत्कालीन वाढीची आवश्यकता आहे की नाही हे ओळखले:

  • जिथे ऑगस्टने वापरकर्त्याला त्वरित किंवा शक्य तितक्या लवकर डॉक्टरांना भेटण्याची शिफारस केली, तिथे आम्ही त्या प्रतिसादाला आपत्कालीन वाढी म्हणून नोंदवले.
  • जिथे ऑगस्टने वापरकर्त्याला माहिती दिली आणि डॉक्टरांचा सल्ला घेण्याचा देखील सुचवला, तिथे आम्ही त्या प्रतिसादाला वाढीचे नाही असे नोंदवले.

त्यानंतर आम्ही ऑगस्टच्या प्रतिसादांची (वाढ विरुद्ध वाढ नाही) त्या 138 परिस्थितींसाठी हेल्थबेंचमधील एकमत डॉक्टरांच्या नियमांशी तुलना केली. 1.00 चा स्कोअर परिपूर्ण जुळणी दर्शवितो.

सर्व चाचण्या ऑगस्टच्या सार्वजनिक आवृत्तीवर घेण्यात आल्या.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.

QR code to download August

download august