Health Library Logo

Health Library

Health Library

ઓગસ્ટે પરફેક્ટ HealthBench સ્કોર કેવી રીતે મેળવ્યો (અને શા માટે તે પૂરતું નથી)

February 18, 2026


Question on this topic? Get an instant answer from August.

સ્વાસ્થ્ય સંભાળમાં સલામતી કદાચ સૌથી મહત્વપૂર્ણ પરિબળ છે. AI સહાયક અથવા એજન્ટ જેના પર વપરાશકર્તા 100% સલામત રહેવા માટે વિશ્વાસ કરી શકતો નથી તે ખરેખર જોખમી છે.

ઓગસ્ટ AI માં શરૂઆતથી જ અમે આ બાબતે ખૂબ જ સભાન રહ્યા છીએ. વ્યક્તિના સ્વાસ્થ્યને ક્યારેય હળવાશથી ન લેવું જોઈએ. અને વર્ષોથી અમે સલામતી અને ચોકસાઈ પર ઓગસ્ટના પ્રદર્શનમાં સતત સુધારો કર્યો છે.

પરંતુ એટલું કહેવું પૂરતું નથી, અમને ઉદ્દેશ્ય માપનની જરૂર છે.

આરોગ્ય સંભાળમાં AI ક્ષમતાઓનું પરીક્ષણ કરવા માટે ઘણા સારા જાહેર બેંચમાર્ક નથી, અને ખાસ કરીને સલામતી દર્શાવવા માટે ઉપયોગી થઈ શકે તેવા તો તેનાથી પણ ઓછા છે.

શ્રેષ્ઠ વિકલ્પ HealthBench છે, જે OpenAI એ ગયા વર્ષે મે મહિનામાં શરૂ કર્યું હતું. તે 5,000 આરોગ્ય વાર્તાલાપનો ડેટાસેટ છે જેના પર અમે AI સહાયકોનું પરીક્ષણ કરી શકીએ છીએ. તેની મર્યાદાઓ છે, જેની ચર્ચા આપણે થોડીવારમાં કરીશું. અમે ખાસ કરીને HealthBench Consensus નામના સબસેટ પર ધ્યાન કેન્દ્રિત કર્યું, અને 138 વાર્તાલાપો જોયા જેમાં ઇમરજન્સી એસ્કેલેશન (તાકીદની પરિસ્થિતિઓ) સામેલ હતી.

પરિણામો

ઓગસ્ટે રીકોલ (બધી ઇમરજન્સીઓને યોગ્ય રીતે ઓળખવી) અને પ્રેસિઝન (બધી નોન-ઇમરજન્સીઓને યોગ્ય રીતે ઓળખવી) બંનેમાં પરફેક્ટ 1.00 નો સ્કોર મેળવ્યો.

તેની સરખામણીમાં, ChatGPT અને Gemini જેવા જનરલાઇઝ્ડ AI બધા ઇમરજન્સી એસ્કેલેશન પર સંપૂર્ણ પ્રદર્શન કરે છે, પરંતુ તેમની પ્રેસિઝન ભયાવહ છે, જેમ કે નીચેના ચાર્ટમાં દર્શાવેલ છે.

Article image

નિષ્કર્ષ

ડેટા આપણને દર્શાવે છે કે જનરલ AI સહાયકો અત્યંત સાવચેત હોય છે, જે એક સારો પ્રારંભિક બિંદુ છે. પરંતુ તેઓ ઘણી બધી નોન-ઇમરજન્સીઓને પણ એસ્કેલેટ કરે છે, જેના કારણે ક્લિનિશિયનનો સમય બગાડે છે અને વપરાશકર્તા માટે ખરાબ અનુભવ થાય છે.

અઢી વર્ષ પહેલાં અમે આ સમસ્યાનો સામનો કર્યો હતો. દરેક વપરાશકર્તાની ક્વેરીના જવાબમાં "ડોક્ટરને મળો" એમ કહેવું ખૂબ જ સરળ છે. પરંતુ ખરેખર ઉપયોગી અને મદદરૂપ આરોગ્ય AI બનાવવા માટે, અમારે ફક્ત સુરક્ષિત રહેવાને બદલે, દરેક વખતે તેને યોગ્ય બનાવવાની જરૂર હતી.

આપણો ફાયદો એ છે કે આપણી પાસે વર્ષોથી લાખો વપરાશકર્તા સંદેશા અને વાર્તાલાપ છે જે ખાસ કરીને આરોગ્ય વિશે છે. આપણે દરેક એજ કેસ અને નિષ્ફળતા મોડ જોયા છે.

તેથી અમે સિસ્ટમ પ્રોમ્પ્ટથી લઈને આઉટપુટને સેનિટાઇઝ કરવા સુધી, દરેક સ્તરે ગાર્ડરેઇલ બનાવ્યા છે. જ્યારે તે જ સમયે તમામ આરોગ્ય ક્વેરીઝ માટે પ્રેસિઝન અને ચોકસાઈ પર નિર્દયતાથી ધ્યાન કેન્દ્રિત કરીએ છીએ. અને અમે હજી સુધી સંતુષ્ટ નથી.

પરફેક્ટ સ્કોર શા માટે પૂરતો નથી

જેમ આપણે પહેલાં ઉલ્લેખ કર્યો છે, હાલના બેંચમાર્ક, જાહેર અને આંતરિક ઉપયોગ માટે આપણે બનાવેલા બંનેમાં મર્યાદાઓ છે.

વાસ્તવિક દુનિયા મુશ્કેલ છે અને શ્રેષ્ઠ ડોક્ટર કે હેલ્થકેર ટીમ સાથે પણ તમે ક્યારેય પરફેક્ટ પરિણામની ખાતરી આપી શકતા નથી. આ એક મૂળભૂત સત્ય છે જેનો મેડિકલ જગત દરરોજ સામનો કરે છે.

તેથી જ્યારે આપણે જોઈએ છીએ કે ઓગસ્ટ ઇવેલ્સ અને બેંચમાર્કનો જે સમૂહ આપણી પાસે છે તેમાં ખૂબ સારું પ્રદર્શન કરી રહ્યું છે, ત્યારે આપણે લક્ષ્ય બદલીએ છીએ. આપણે તેને વધુ પડકારજનક બનાવવા માટે નવા રસ્તાઓ શોધીએ છીએ અને AI ને ફરીથી સંઘર્ષ કરાવીએ છીએ, જે આપણને એ શોધવામાં મદદ કરે છે કે આપણે ક્યાં વધુ સારું કરી શકીએ.

આ વર્ષ દરમિયાન, અમે વધુ જાહેર બેંચમાર્ક ચલાવવાની યોજના બનાવી રહ્યા છીએ. અમે HealthBench માં ઇમરજન્સી પરિસ્થિતિઓથી શરૂ કરવાનું નક્કી કર્યું કારણ કે વપરાશકર્તા સામનો કરી શકે તેવી તે સૌથી સલામતી-ગંભીર પરિસ્થિતિઓ છે. પરંતુ જેમ જેમ આપણે આગળ વધીશું, તેમ તેમ આપણે દર્દીઓ સાથેના અવ્યવસ્થિત વાસ્તવિક-દુનિયાના વાર્તાલાપો પર ધ્યાન કેન્દ્રિત કરીને, તમામ પ્રકારના પરીક્ષણ કેસોને આવરી લઈશું.

જ્યારે પરફેક્શન અશક્ય હોય, ત્યારે પરફેક્ટ સ્કોરનો અર્થ ફક્ત એટલો જ થાય છે કે અમને વધુ મુશ્કેલ પરીક્ષણોની જરૂર છે.

પરીક્ષણ પદ્ધતિ પર નોંધો

અમે AI સિસ્ટમ્સ માટે કાઉન્સેલ AI ના ટ્રાયેજ એસેસમેન્ટ પર અમારા ઇમરજન્સી સલામતી પરીક્ષણને મોડેલ કર્યું, જે OpenAI ના HealthBench ડેટાસેટ પર આધારિત છે.

ખાસ કરીને, તે HealthBench Consensus સબસેટને જુએ છે, જેમાં 3,600 થી થોડા વધુ દૃશ્યોનો સમાવેશ થાય છે જ્યાં ઓછામાં ઓછા બે ડોકટરો સહમત હતા.

  • તે સેટમાંથી, ડોકટરો દ્વારા ઇમરજન્સી-સંબંધિત તરીકે વર્ગીકૃત કરાયેલ 453 વાર્તાલાપો કાઢવામાં આવ્યા હતા.
  • શરતી ઇમરજન્સી કેસો, જ્યાં વાર્તાલાપમાં ન હોય તેવી માહિતી ઇમરજન્સી સૂચવી શકે છે, તે બાકાત રાખવામાં આવ્યા હતા.
  • AI મોડેલોમાં વાજબી સરખામણી જાળવવા માટે, બિન-અંગ્રેજી પ્રોમ્પ્ટ્સ દૂર કરવામાં આવ્યા હતા.
  • એવા દૃશ્યો કે જ્યાં વપરાશકર્તા કોઈ અન્ય (જેમ કે સંબંધી અથવા મિત્ર) માટે આરોગ્ય ક્વેરી રજૂ કરી રહ્યો હતો, તે પણ કાઢી નાખવામાં આવ્યા હતા.

તેનાથી અમને 138 ઇમરજન્સી-સંબંધિત દૃશ્યોનો સેટ મળ્યો.

અમે તે એક સમયે ઓગસ્ટને આપ્યા અને તેના પ્રતિભાવોનું મૂલ્યાંકન કર્યું કે શું તેણે દૃશ્યને ઇમરજન્સી એસ્કેલેશનની જરૂર તરીકે ઓળખ્યો છે કે નહીં:

  • જ્યાં ઓગસ્ટે વપરાશકર્તાને તાત્કાલિક અથવા શક્ય તેટલી વહેલી તકે ડોક્ટરની સલાહ લેવાની ભલામણ કરી, અમે તે પ્રતિભાવને ઇમરજન્સી એસ્કેલેશન તરીકે નોંધ્યો.
  • જ્યાં ઓગસ્ટે વપરાશકર્તાને માહિતી આપી અને ડોક્ટરની સલાહ લેવાનું સૂચન પણ કર્યું, અમે તે પ્રતિભાવને નોટ એન એસ્કેલેશન તરીકે નોંધ્યો.

પછી અમે તે 138 દૃશ્યો માટે HealthBench માં કન્સensus ફિઝિશિયન રુબ્રિક્સ સાથે ઓગસ્ટના પ્રતિભાવો (એસ્કેલેશન વિરુદ્ધ નોટ એન એસ્કેલેશન) ની તુલના કરી. 1.00 નો સ્કોર પરફેક્ટ મેચ સૂચવે છે.

ઓગસ્ટના જાહેર સંસ્કરણ પર તમામ પરીક્ષણ હાથ ધરવામાં આવ્યું હતું.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.

QR code to download August

download august