Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
સ્વાસ્થ્ય સંભાળમાં સલામતી કદાચ સૌથી મહત્વપૂર્ણ પરિબળ છે. AI સહાયક અથવા એજન્ટ જેના પર વપરાશકર્તા 100% સલામત રહેવા માટે વિશ્વાસ કરી શકતો નથી તે ખરેખર જોખમી છે.
ઓગસ્ટ AI માં શરૂઆતથી જ અમે આ બાબતે ખૂબ જ સભાન રહ્યા છીએ. વ્યક્તિના સ્વાસ્થ્યને ક્યારેય હળવાશથી ન લેવું જોઈએ. અને વર્ષોથી અમે સલામતી અને ચોકસાઈ પર ઓગસ્ટના પ્રદર્શનમાં સતત સુધારો કર્યો છે.
પરંતુ એટલું કહેવું પૂરતું નથી, અમને ઉદ્દેશ્ય માપનની જરૂર છે.
આરોગ્ય સંભાળમાં AI ક્ષમતાઓનું પરીક્ષણ કરવા માટે ઘણા સારા જાહેર બેંચમાર્ક નથી, અને ખાસ કરીને સલામતી દર્શાવવા માટે ઉપયોગી થઈ શકે તેવા તો તેનાથી પણ ઓછા છે.
શ્રેષ્ઠ વિકલ્પ HealthBench છે, જે OpenAI એ ગયા વર્ષે મે મહિનામાં શરૂ કર્યું હતું. તે 5,000 આરોગ્ય વાર્તાલાપનો ડેટાસેટ છે જેના પર અમે AI સહાયકોનું પરીક્ષણ કરી શકીએ છીએ. તેની મર્યાદાઓ છે, જેની ચર્ચા આપણે થોડીવારમાં કરીશું. અમે ખાસ કરીને HealthBench Consensus નામના સબસેટ પર ધ્યાન કેન્દ્રિત કર્યું, અને 138 વાર્તાલાપો જોયા જેમાં ઇમરજન્સી એસ્કેલેશન (તાકીદની પરિસ્થિતિઓ) સામેલ હતી.
ઓગસ્ટે રીકોલ (બધી ઇમરજન્સીઓને યોગ્ય રીતે ઓળખવી) અને પ્રેસિઝન (બધી નોન-ઇમરજન્સીઓને યોગ્ય રીતે ઓળખવી) બંનેમાં પરફેક્ટ 1.00 નો સ્કોર મેળવ્યો.
તેની સરખામણીમાં, ChatGPT અને Gemini જેવા જનરલાઇઝ્ડ AI બધા ઇમરજન્સી એસ્કેલેશન પર સંપૂર્ણ પ્રદર્શન કરે છે, પરંતુ તેમની પ્રેસિઝન ભયાવહ છે, જેમ કે નીચેના ચાર્ટમાં દર્શાવેલ છે.

ડેટા આપણને દર્શાવે છે કે જનરલ AI સહાયકો અત્યંત સાવચેત હોય છે, જે એક સારો પ્રારંભિક બિંદુ છે. પરંતુ તેઓ ઘણી બધી નોન-ઇમરજન્સીઓને પણ એસ્કેલેટ કરે છે, જેના કારણે ક્લિનિશિયનનો સમય બગાડે છે અને વપરાશકર્તા માટે ખરાબ અનુભવ થાય છે.
અઢી વર્ષ પહેલાં અમે આ સમસ્યાનો સામનો કર્યો હતો. દરેક વપરાશકર્તાની ક્વેરીના જવાબમાં "ડોક્ટરને મળો" એમ કહેવું ખૂબ જ સરળ છે. પરંતુ ખરેખર ઉપયોગી અને મદદરૂપ આરોગ્ય AI બનાવવા માટે, અમારે ફક્ત સુરક્ષિત રહેવાને બદલે, દરેક વખતે તેને યોગ્ય બનાવવાની જરૂર હતી.
આપણો ફાયદો એ છે કે આપણી પાસે વર્ષોથી લાખો વપરાશકર્તા સંદેશા અને વાર્તાલાપ છે જે ખાસ કરીને આરોગ્ય વિશે છે. આપણે દરેક એજ કેસ અને નિષ્ફળતા મોડ જોયા છે.
તેથી અમે સિસ્ટમ પ્રોમ્પ્ટથી લઈને આઉટપુટને સેનિટાઇઝ કરવા સુધી, દરેક સ્તરે ગાર્ડરેઇલ બનાવ્યા છે. જ્યારે તે જ સમયે તમામ આરોગ્ય ક્વેરીઝ માટે પ્રેસિઝન અને ચોકસાઈ પર નિર્દયતાથી ધ્યાન કેન્દ્રિત કરીએ છીએ. અને અમે હજી સુધી સંતુષ્ટ નથી.
જેમ આપણે પહેલાં ઉલ્લેખ કર્યો છે, હાલના બેંચમાર્ક, જાહેર અને આંતરિક ઉપયોગ માટે આપણે બનાવેલા બંનેમાં મર્યાદાઓ છે.
વાસ્તવિક દુનિયા મુશ્કેલ છે અને શ્રેષ્ઠ ડોક્ટર કે હેલ્થકેર ટીમ સાથે પણ તમે ક્યારેય પરફેક્ટ પરિણામની ખાતરી આપી શકતા નથી. આ એક મૂળભૂત સત્ય છે જેનો મેડિકલ જગત દરરોજ સામનો કરે છે.
તેથી જ્યારે આપણે જોઈએ છીએ કે ઓગસ્ટ ઇવેલ્સ અને બેંચમાર્કનો જે સમૂહ આપણી પાસે છે તેમાં ખૂબ સારું પ્રદર્શન કરી રહ્યું છે, ત્યારે આપણે લક્ષ્ય બદલીએ છીએ. આપણે તેને વધુ પડકારજનક બનાવવા માટે નવા રસ્તાઓ શોધીએ છીએ અને AI ને ફરીથી સંઘર્ષ કરાવીએ છીએ, જે આપણને એ શોધવામાં મદદ કરે છે કે આપણે ક્યાં વધુ સારું કરી શકીએ.
આ વર્ષ દરમિયાન, અમે વધુ જાહેર બેંચમાર્ક ચલાવવાની યોજના બનાવી રહ્યા છીએ. અમે HealthBench માં ઇમરજન્સી પરિસ્થિતિઓથી શરૂ કરવાનું નક્કી કર્યું કારણ કે વપરાશકર્તા સામનો કરી શકે તેવી તે સૌથી સલામતી-ગંભીર પરિસ્થિતિઓ છે. પરંતુ જેમ જેમ આપણે આગળ વધીશું, તેમ તેમ આપણે દર્દીઓ સાથેના અવ્યવસ્થિત વાસ્તવિક-દુનિયાના વાર્તાલાપો પર ધ્યાન કેન્દ્રિત કરીને, તમામ પ્રકારના પરીક્ષણ કેસોને આવરી લઈશું.
જ્યારે પરફેક્શન અશક્ય હોય, ત્યારે પરફેક્ટ સ્કોરનો અર્થ ફક્ત એટલો જ થાય છે કે અમને વધુ મુશ્કેલ પરીક્ષણોની જરૂર છે.
અમે AI સિસ્ટમ્સ માટે કાઉન્સેલ AI ના ટ્રાયેજ એસેસમેન્ટ પર અમારા ઇમરજન્સી સલામતી પરીક્ષણને મોડેલ કર્યું, જે OpenAI ના HealthBench ડેટાસેટ પર આધારિત છે.
ખાસ કરીને, તે HealthBench Consensus સબસેટને જુએ છે, જેમાં 3,600 થી થોડા વધુ દૃશ્યોનો સમાવેશ થાય છે જ્યાં ઓછામાં ઓછા બે ડોકટરો સહમત હતા.
તેનાથી અમને 138 ઇમરજન્સી-સંબંધિત દૃશ્યોનો સેટ મળ્યો.
અમે તે એક સમયે ઓગસ્ટને આપ્યા અને તેના પ્રતિભાવોનું મૂલ્યાંકન કર્યું કે શું તેણે દૃશ્યને ઇમરજન્સી એસ્કેલેશનની જરૂર તરીકે ઓળખ્યો છે કે નહીં:
પછી અમે તે 138 દૃશ્યો માટે HealthBench માં કન્સensus ફિઝિશિયન રુબ્રિક્સ સાથે ઓગસ્ટના પ્રતિભાવો (એસ્કેલેશન વિરુદ્ધ નોટ એન એસ્કેલેશન) ની તુલના કરી. 1.00 નો સ્કોર પરફેક્ટ મેચ સૂચવે છે.
ઓગસ્ટના જાહેર સંસ્કરણ પર તમામ પરીક્ષણ હાથ ધરવામાં આવ્યું હતું.
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.