HealthBench શું છે?

HealthBench એ OpenAI દ્વારા 5,000 આરોગ્ય સંવાદોનો ડેટાસેટ છે, જે AI સહાયકોને પરીક્ષણ કરવા માટે શરૂ કરવામાં આવ્યો છે, જેમાં આરોગ્યસંભાળમાં સલામતી અને ચોકસાઈ પર ધ્યાન કેન્દ્રિત કરવામાં આવ્યું છે.

HealthBench Consensus શું છે?

HealthBench Consensus એ HealthBench નો એક પેટા સમૂહ છે જે 138 સંવાદો પર ધ્યાન કેન્દ્રિત કરે છે જેમાં કટોકટીના પ્રસંગોનો સમાવેશ થાય છે, જ્યાં ઓછામાં ઓછા બે ડોકટરો નિદાન અથવા સલાહ પર સંમત થયા હતા.

HealthBench પર સંપૂર્ણ સ્કોર પૂરતો કેમ નથી?

હાલના બેન્ચમાર્ક પર સંપૂર્ણ સ્કોર પૂરતો નથી કારણ કે વાસ્તવિક દુનિયા જટિલ અને અણધારી છે; AI ની વાસ્તવિક દુનિયામાં ઉપયોગીતા અને સલામતી સુનિશ્ચિત કરવા માટે સતત સુધારણા અને વધુ પડકારજનક પરીક્ષણોની જરૂર છે.

August નું HealthBench પર પરીક્ષણ કેવી રીતે કરવામાં આવ્યું?

August નું HealthBench Consensus માંથી 138 કટોકટી-સંબંધિત દૃશ્યો પર પરીક્ષણ કરવામાં આવ્યું હતું, જેમાં ડોકટરોના માપદંડની તુલનામાં કટોકટીના પ્રસંગો માટે તેના પ્રતિભાવોનું મૂલ્યાંકન કરવામાં આવ્યું હતું.

ઓગસ્ટે પરફેક્ટ HealthBench સ્કોર કેવી રીતે મેળવ્યો (અને શા માટે તે પૂરતું નથી)

સ્વાસ્થ્ય સંભાળમાં સલામતી કદાચ સૌથી મહત્વપૂર્ણ પરિબળ છે. AI સહાયક અથવા એજન્ટ જેના પર વપરાશકર્તા 100% સલામત રહેવા માટે વિશ્વાસ કરી શકતો નથી તે ખરેખર જોખમી છે.

ઓગસ્ટ AI માં શરૂઆતથી જ અમે આ બાબતે ખૂબ જ સભાન રહ્યા છીએ. વ્યક્તિના સ્વાસ્થ્યને ક્યારેય હળવાશથી ન લેવું જોઈએ. અને વર્ષોથી અમે સલામતી અને ચોકસાઈ પર ઓગસ્ટના પ્રદર્શનમાં સતત સુધારો કર્યો છે.

પરંતુ એટલું કહેવું પૂરતું નથી, અમને ઉદ્દેશ્ય માપનની જરૂર છે.

આરોગ્ય સંભાળમાં AI ક્ષમતાઓનું પરીક્ષણ કરવા માટે ઘણા સારા જાહેર બેંચમાર્ક નથી, અને ખાસ કરીને સલામતી દર્શાવવા માટે ઉપયોગી થઈ શકે તેવા તો તેનાથી પણ ઓછા છે.

શ્રેષ્ઠ વિકલ્પ HealthBench છે, જે OpenAI એ ગયા વર્ષે મે મહિનામાં શરૂ કર્યું હતું. તે 5,000 આરોગ્ય વાર્તાલાપનો ડેટાસેટ છે જેના પર અમે AI સહાયકોનું પરીક્ષણ કરી શકીએ છીએ. તેની મર્યાદાઓ છે, જેની ચર્ચા આપણે થોડીવારમાં કરીશું. અમે ખાસ કરીને HealthBench Consensus નામના સબસેટ પર ધ્યાન કેન્દ્રિત કર્યું, અને 138 વાર્તાલાપો જોયા જેમાં ઇમરજન્સી એસ્કેલેશન (તાકીદની પરિસ્થિતિઓ) સામેલ હતી.

પરિણામો

ઓગસ્ટે રીકોલ (બધી ઇમરજન્સીઓને યોગ્ય રીતે ઓળખવી) અને પ્રેસિઝન (બધી નોન-ઇમરજન્સીઓને યોગ્ય રીતે ઓળખવી) બંનેમાં પરફેક્ટ 1.00 નો સ્કોર મેળવ્યો.

તેની સરખામણીમાં, ChatGPT અને Gemini જેવા જનરલાઇઝ્ડ AI બધા ઇમરજન્સી એસ્કેલેશન પર સંપૂર્ણ પ્રદર્શન કરે છે, પરંતુ તેમની પ્રેસિઝન ભયાવહ છે, જેમ કે નીચેના ચાર્ટમાં દર્શાવેલ છે.

નિષ્કર્ષ

ડેટા આપણને દર્શાવે છે કે જનરલ AI સહાયકો અત્યંત સાવચેત હોય છે, જે એક સારો પ્રારંભિક બિંદુ છે. પરંતુ તેઓ ઘણી બધી નોન-ઇમરજન્સીઓને પણ એસ્કેલેટ કરે છે, જેના કારણે ક્લિનિશિયનનો સમય બગાડે છે અને વપરાશકર્તા માટે ખરાબ અનુભવ થાય છે.

અઢી વર્ષ પહેલાં અમે આ સમસ્યાનો સામનો કર્યો હતો. દરેક વપરાશકર્તાની ક્વેરીના જવાબમાં "ડોક્ટરને મળો" એમ કહેવું ખૂબ જ સરળ છે. પરંતુ ખરેખર ઉપયોગી અને મદદરૂપ આરોગ્ય AI બનાવવા માટે, અમારે ફક્ત સુરક્ષિત રહેવાને બદલે, દરેક વખતે તેને યોગ્ય બનાવવાની જરૂર હતી.

આપણો ફાયદો એ છે કે આપણી પાસે વર્ષોથી લાખો વપરાશકર્તા સંદેશા અને વાર્તાલાપ છે જે ખાસ કરીને આરોગ્ય વિશે છે. આપણે દરેક એજ કેસ અને નિષ્ફળતા મોડ જોયા છે.

તેથી અમે સિસ્ટમ પ્રોમ્પ્ટથી લઈને આઉટપુટને સેનિટાઇઝ કરવા સુધી, દરેક સ્તરે ગાર્ડરેઇલ બનાવ્યા છે. જ્યારે તે જ સમયે તમામ આરોગ્ય ક્વેરીઝ માટે પ્રેસિઝન અને ચોકસાઈ પર નિર્દયતાથી ધ્યાન કેન્દ્રિત કરીએ છીએ. અને અમે હજી સુધી સંતુષ્ટ નથી.

પરફેક્ટ સ્કોર શા માટે પૂરતો નથી

જેમ આપણે પહેલાં ઉલ્લેખ કર્યો છે, હાલના બેંચમાર્ક, જાહેર અને આંતરિક ઉપયોગ માટે આપણે બનાવેલા બંનેમાં મર્યાદાઓ છે.

વાસ્તવિક દુનિયા મુશ્કેલ છે અને શ્રેષ્ઠ ડોક્ટર કે હેલ્થકેર ટીમ સાથે પણ તમે ક્યારેય પરફેક્ટ પરિણામની ખાતરી આપી શકતા નથી. આ એક મૂળભૂત સત્ય છે જેનો મેડિકલ જગત દરરોજ સામનો કરે છે.

તેથી જ્યારે આપણે જોઈએ છીએ કે ઓગસ્ટ ઇવેલ્સ અને બેંચમાર્કનો જે સમૂહ આપણી પાસે છે તેમાં ખૂબ સારું પ્રદર્શન કરી રહ્યું છે, ત્યારે આપણે લક્ષ્ય બદલીએ છીએ. આપણે તેને વધુ પડકારજનક બનાવવા માટે નવા રસ્તાઓ શોધીએ છીએ અને AI ને ફરીથી સંઘર્ષ કરાવીએ છીએ, જે આપણને એ શોધવામાં મદદ કરે છે કે આપણે ક્યાં વધુ સારું કરી શકીએ.

આ વર્ષ દરમિયાન, અમે વધુ જાહેર બેંચમાર્ક ચલાવવાની યોજના બનાવી રહ્યા છીએ. અમે HealthBench માં ઇમરજન્સી પરિસ્થિતિઓથી શરૂ કરવાનું નક્કી કર્યું કારણ કે વપરાશકર્તા સામનો કરી શકે તેવી તે સૌથી સલામતી-ગંભીર પરિસ્થિતિઓ છે. પરંતુ જેમ જેમ આપણે આગળ વધીશું, તેમ તેમ આપણે દર્દીઓ સાથેના અવ્યવસ્થિત વાસ્તવિક-દુનિયાના વાર્તાલાપો પર ધ્યાન કેન્દ્રિત કરીને, તમામ પ્રકારના પરીક્ષણ કેસોને આવરી લઈશું.

જ્યારે પરફેક્શન અશક્ય હોય, ત્યારે પરફેક્ટ સ્કોરનો અર્થ ફક્ત એટલો જ થાય છે કે અમને વધુ મુશ્કેલ પરીક્ષણોની જરૂર છે.

પરીક્ષણ પદ્ધતિ પર નોંધો

અમે AI સિસ્ટમ્સ માટે કાઉન્સેલ AI ના ટ્રાયેજ એસેસમેન્ટ પર અમારા ઇમરજન્સી સલામતી પરીક્ષણને મોડેલ કર્યું, જે OpenAI ના HealthBench ડેટાસેટ પર આધારિત છે.

ખાસ કરીને, તે HealthBench Consensus સબસેટને જુએ છે, જેમાં 3,600 થી થોડા વધુ દૃશ્યોનો સમાવેશ થાય છે જ્યાં ઓછામાં ઓછા બે ડોકટરો સહમત હતા.

તે સેટમાંથી, ડોકટરો દ્વારા ઇમરજન્સી-સંબંધિત તરીકે વર્ગીકૃત કરાયેલ 453 વાર્તાલાપો કાઢવામાં આવ્યા હતા.
શરતી ઇમરજન્સી કેસો, જ્યાં વાર્તાલાપમાં ન હોય તેવી માહિતી ઇમરજન્સી સૂચવી શકે છે, તે બાકાત રાખવામાં આવ્યા હતા.
AI મોડેલોમાં વાજબી સરખામણી જાળવવા માટે, બિન-અંગ્રેજી પ્રોમ્પ્ટ્સ દૂર કરવામાં આવ્યા હતા.
એવા દૃશ્યો કે જ્યાં વપરાશકર્તા કોઈ અન્ય (જેમ કે સંબંધી અથવા મિત્ર) માટે આરોગ્ય ક્વેરી રજૂ કરી રહ્યો હતો, તે પણ કાઢી નાખવામાં આવ્યા હતા.

તેનાથી અમને 138 ઇમરજન્સી-સંબંધિત દૃશ્યોનો સેટ મળ્યો.

અમે તે એક સમયે ઓગસ્ટને આપ્યા અને તેના પ્રતિભાવોનું મૂલ્યાંકન કર્યું કે શું તેણે દૃશ્યને ઇમરજન્સી એસ્કેલેશનની જરૂર તરીકે ઓળખ્યો છે કે નહીં:

જ્યાં ઓગસ્ટે વપરાશકર્તાને તાત્કાલિક અથવા શક્ય તેટલી વહેલી તકે ડોક્ટરની સલાહ લેવાની ભલામણ કરી, અમે તે પ્રતિભાવને ઇમરજન્સી એસ્કેલેશન તરીકે નોંધ્યો.
જ્યાં ઓગસ્ટે વપરાશકર્તાને માહિતી આપી અને ડોક્ટરની સલાહ લેવાનું સૂચન પણ કર્યું, અમે તે પ્રતિભાવને નોટ એન એસ્કેલેશન તરીકે નોંધ્યો.

પછી અમે તે 138 દૃશ્યો માટે HealthBench માં કન્સensus ફિઝિશિયન રુબ્રિક્સ સાથે ઓગસ્ટના પ્રતિભાવો (એસ્કેલેશન વિરુદ્ધ નોટ એન એસ્કેલેશન) ની તુલના કરી. 1.00 નો સ્કોર પરફેક્ટ મેચ સૂચવે છે.

ઓગસ્ટના જાહેર સંસ્કરણ પર તમામ પરીક્ષણ હાથ ધરવામાં આવ્યું હતું.

ઓગસ્ટે પરફેક્ટ HealthBench સ્કોર કેવી રીતે મેળવ્યો (અને શા માટે તે પૂરતું નથી)

પરિણામો

નિષ્કર્ષ

પરફેક્ટ સ્કોર શા માટે પૂરતો નથી

પરીક્ષણ પદ્ધતિ પર નોંધો

Your health journey starts with a single question