Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
आरोग्यसेवेमध्ये सुरक्षितता हा कदाचित सर्वात महत्त्वाचा घटक आहे. वापरकर्ता ज्या AI सहाय्यकावर किंवा एजंटवर 100% सुरक्षिततेसाठी विश्वास ठेवू शकत नाही, ते खरोखरच धोकादायक आहे.
ऑगस्ट AI मध्ये सुरुवातीपासूनच आम्ही याबद्दल खूप जागरूक होतो. व्यक्तीच्या आरोग्याकडे कधीही दुर्लक्ष करता कामा नये. आणि वर्षानुवर्षे आम्ही ऑगस्टची सुरक्षितता आणि अचूकतेतील कामगिरी सतत सुधारत आलो आहोत.
पण एवढे बोलणे पुरेसे नाही, आपल्याला एक वस्तुनिष्ठ मापन हवे आहे.
आरोग्यसेवेतील AI क्षमतांची चाचणी घेण्यासाठी फारसे चांगले सार्वजनिक बेंचमार्क नाहीत, आणि विशेषतः सुरक्षितता दर्शविण्यासाठी वापरता येण्यासारखे तर त्याहूनही कमी आहेत.
सर्वोत्तम पर्याय म्हणजे हेल्थबेंच, जे OpenAI ने गेल्या वर्षी मे मध्ये लाँच केले. हा 5,000 आरोग्य संभाषणांचा डेटासेट आहे ज्याच्या आधारावर आपण AI सहाय्यकांची चाचणी करू शकतो. याच्या काही मर्यादा आहेत, ज्याबद्दल आपण थोड्याच वेळात बोलू. आम्ही विशेषतः हेल्थबेंच कन्सेन्सस नावाच्या उपसंचामधील 138 आपत्कालीन परिस्थितीतल्या संभाषणांवर लक्ष केंद्रित केले.
ऑगस्टने रिकॉल (सर्व आपत्कालीन परिस्थिती योग्यरित्या ओळखणे) आणि प्रेसिजन (सर्व आपत्कालीन नसलेल्या परिस्थिती योग्यरित्या ओळखणे) या दोन्हीमध्ये परिपूर्ण 1.00 स्कोअर मिळवला.
त्याच्या तुलनेत, ChatGPT आणि Gemini सारखे सामान्य AI सर्व आपत्कालीन परिस्थितींना योग्यरित्या वाढवतात, परंतु त्यांची प्रेसिजन खूपच वाईट आहे, जसे की खालील तक्त्यात दर्शविले आहे.

डेटा आपल्याला दर्शवितो की सामान्य AI सहाय्यक अत्यंत सावध असतात, जी एक चांगली सुरुवात आहे. परंतु ते अनेक आपत्कालीन नसलेल्या गोष्टींनाही वाढवतात, ज्यामुळे डॉक्टरांचा वेळ वाया जातो आणि वापरकर्त्यासाठी अनुभव खूपच वाईट होतो.
आम्हाला सुमारे अडीच वर्षांपूर्वी याचा अनुभव आला. प्रत्येक वापरकर्त्याच्या प्रश्नाला 'डॉक्टरांना भेटा' असे म्हणणे खूप सोपे आहे. परंतु खरोखर उपयुक्त आणि मदतीचा ठरेल असा आरोग्य AI तयार करण्यासाठी, आम्हाला केवळ सुरक्षित खेळण्याऐवजी प्रत्येक वेळी ते बरोबर करणे आवश्यक होते.
आमचा फायदा हा आहे की आमच्याकडे वर्षांनुवर्षे लाखो वापरकर्त्यांचे संदेश आणि संभाषणे आहेत जी विशेषतः आरोग्याशी संबंधित आहेत. आम्ही प्रत्येक एज केस आणि अपयश मोड पाहिला आहे.
त्यामुळे आम्ही सिस्टम प्रॉम्प्टपासून आउटपुट सॅनिटाइज करण्यापर्यंत प्रत्येक स्तरावर सुरक्षा व्यवस्था तयार केली आहे. त्याच वेळी सर्व आरोग्य प्रश्नांसाठी प्रेसिजन आणि अचूकतेवर अथकपणे लक्ष केंद्रित केले आहे. आणि आम्ही अजून समाधानी नाही.
जसे आम्ही आधी नमूद केले आहे, विद्यमान बेंचमार्कच्या मर्यादा आहेत, सार्वजनिक आणि अंतर्गत वापरासाठी आम्ही तयार केलेले दोन्ही.
वास्तविक जग कठीण आहे आणि सर्वोत्तम डॉक्टर किंवा आरोग्य सेवा टीमसह देखील आपण कधीही परिपूर्ण निकालाची हमी देऊ शकत नाही. हे एक मूलभूत सत्य आहे जे वैद्यकीय समुदाय दररोज अनुभवतो.
त्यामुळे जेव्हा आम्ही पाहतो की ऑगस्ट आमच्याकडे असलेल्या मूल्यांकन आणि बेंचमार्कच्या सेटमध्ये खूप चांगली कामगिरी करत आहे, तेव्हा आम्ही आमचे लक्ष्य बदलतो. आम्ही त्याला अधिक आव्हानात्मक बनवण्यासाठी नवीन मार्ग शोधतो आणि AI ला पुन्हा संघर्ष करायला लावतो, ज्यामुळे आम्हाला कुठे आणखी सुधारणा करता येईल हे समजण्यास मदत होते.
या वर्षाच्या काळात, आम्ही अधिक सार्वजनिक बेंचमार्क चालवण्याची योजना आखत आहोत. आम्ही हेल्थबेंचमधील आपत्कालीन परिस्थितींपासून सुरुवात करण्याचा निर्णय घेतला कारण त्या वापरकर्त्यांना येणाऱ्या सर्वात सुरक्षा-गंभीर परिस्थिती आहेत. परंतु जसजसे आम्ही पुढे जाऊ, तसतसे आम्ही सर्व प्रकारच्या चाचणी प्रकरणांचा समावेश करू, ज्यामध्ये रुग्णांसोबतच्या गुंतागुंतीच्या वास्तविक-जगातील संभाषणांवर लक्ष केंद्रित केले जाईल.
जेव्हा परिपूर्णता अशक्य असते, तेव्हा परिपूर्ण स्कोअरचा अर्थ केवळ इतकाच असतो की आम्हाला अधिक कठीण चाचण्यांची आवश्यकता आहे.
आम्ही OpenAI च्या हेल्थबेंच डेटासेटवर आधारित, AI सिस्टमसाठी कौन्सेल AI च्या ट्राइएज मूल्यांकनावर आमच्या आपत्कालीन सुरक्षा चाचणीचे मॉडेलिंग केले.
विशेषतः, ते हेल्थबेंच कन्सेन्सस उपसंचावर लक्ष केंद्रित करते, ज्यामध्ये 3,600 पेक्षा जास्त परिस्थितींचा समावेश आहे जिथे किमान दोन डॉक्टरांचे एकमत होते.
त्यामुळे आमच्याकडे 138 आपत्कालीन-संबंधित परिस्थितींचा संच उरला.
आम्ही त्या एकामागून एक ऑगस्टला दिल्या आणि त्याच्या प्रतिसादांचे मूल्यांकन केले की त्याने परिस्थितीला आपत्कालीन वाढीची आवश्यकता आहे की नाही हे ओळखले:
त्यानंतर आम्ही ऑगस्टच्या प्रतिसादांची (वाढ विरुद्ध वाढ नाही) त्या 138 परिस्थितींसाठी हेल्थबेंचमधील एकमत डॉक्टरांच्या नियमांशी तुलना केली. 1.00 चा स्कोअर परिपूर्ण जुळणी दर्शवितो.
सर्व चाचण्या ऑगस्टच्या सार्वजनिक आवृत्तीवर घेण्यात आल्या.
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.