Health Library Logo

Health Library

Health Library

ഓഗസ്റ്റ് എങ്ങനെയാണ് ഒരു മികച്ച ഹെൽത്ത്ബെഞ്ച് സ്കോർ നേടിയത് (എന്തുകൊണ്ട് അത് മതിയാകുന്നില്ല)

February 18, 2026


Question on this topic? Get an instant answer from August.

ആരോഗ്യ സംരക്ഷണത്തിൽ സുരക്ഷയാണ് ഒരുപക്ഷേ ഏറ്റവും പ്രധാനപ്പെട്ട ഘടകം. നൂറു ശതമാനം സുരക്ഷിതമാണെന്ന് ഉപയോക്താവിന് വിശ്വസിക്കാൻ കഴിയാത്ത ഒരു AI അസിസ്റ്റന്റ് അല്ലെങ്കിൽ ഏജന്റ് യഥാർത്ഥത്തിൽ അപകടകരമാണ്.

ഓഗസ്റ്റ് AI-ൽ തുടക്കം മുതൽ തന്നെ ഞങ്ങൾ വളരെ ശ്രദ്ധിച്ചിട്ടുള്ള ഒന്നാണ്. ഒരാളുടെ ആരോഗ്യത്തെ ഒരിക്കലും നിസ്സാരമായി കാണരുത്. വർഷങ്ങളായി സുരക്ഷയിലും കൃത്യതയിലും ഓഗസ്റ്റിന്റെ പ്രകടനം ഞങ്ങൾ നിരന്തരം മെച്ചപ്പെടുത്തി വരുന്നു.

എന്നാൽ അത് പറയുന്നതുകൊണ്ട് മാത്രം കാര്യമില്ല, ഞങ്ങൾക്ക് ഒരു വസ്തുനിഷ്ഠമായ അളവ് ആവശ്യമാണ്.

ആരോഗ്യ സംരക്ഷണത്തിൽ AI കഴിവിനെ പരീക്ഷിക്കാൻ പൊതുവായി ലഭ്യമായ മികച്ച ബെഞ്ച്മാർക്കുകൾ അധികമില്ല, പ്രത്യേകിച്ചും സുരക്ഷ തെളിയിക്കാൻ ഉപയോഗിക്കാവുന്നവ അതിലും കുറവാണ്.

ഏറ്റവും നല്ല ഓപ്ഷൻ ഓപ്പൺAI കഴിഞ്ഞ മെയ് മാസം പുറത്തിറക്കിയ ഹെൽത്ത്ബെഞ്ച് ആണ്. AI അസിസ്റ്റന്റുകളെ പരീക്ഷിക്കാൻ കഴിയുന്ന 5,000 ആരോഗ്യ സംഭാഷണങ്ങളുടെ ഒരു ഡാറ്റാസെറ്റാണിത്. ഇതിന് അതിൻ്റേതായ പരിമിതികളുണ്ട്, അത് ഞങ്ങൾ ഉടൻ തന്നെ വിശദീകരിക്കുന്നതാണ്. HealthBench Consensus എന്ന ഒരു സബ്സെറ്റിൽ ഞങ്ങൾ പ്രത്യേകമായി ശ്രദ്ധ കേന്ദ്രീകരിക്കുകയും, എമർജൻസി അടിയന്തര സാഹചര്യങ്ങളുമായി ബന്ധപ്പെട്ട 138 സംഭാഷണങ്ങൾ പരിശോധിക്കുകയും ചെയ്തു.

ഫലങ്ങൾ

എല്ലാ എമർജൻസികളും ശരിയായി തിരിച്ചറിയുന്നതിലും (recall) എല്ലാ നോൺ-എമർജൻസികളും ശരിയായി തിരിച്ചറിയുന്നതിലും (precision) ഓഗസ്റ്റ് 1.00 എന്ന മികച്ച സ്കോർ നേടി.

ഇതൊരു താരതമ്യം ചെയ്യുമ്പോൾ, ChatGPT, Gemini പോലുള്ള സാധാരണ AIകൾ എല്ലാ എമർജൻസികളും അടിയന്തരമായി രേഖപ്പെടുത്തുന്നതിൽ മികച്ചതാണ്, എന്നാൽ അവയുടെ precision വളരെ മോശമാണ്, താഴെ കാണുന്ന ചാർട്ട് ഇത് വ്യക്തമാക്കുന്നു.

Article image

ഇതിൻ്റെ ഫലങ്ങൾ

ഡാറ്റ നമ്മോട് പറയുന്നത് സാധാരണ AI അസിസ്റ്റന്റുകൾ വളരെ ജാഗ്രത പുലർത്തുന്നു എന്നാണ്, ഇത് ഒരു നല്ല തുടക്കമാണ്. എന്നാൽ അവ പല നോൺ-എമർജൻസികളും അടിയന്തരമായി രേഖപ്പെടുത്തുന്നു, ഇത് ഡോക്ടർമാരുടെ സമയം നഷ്ടപ്പെടുത്തുകയും ഉപയോക്താവിന് വളരെ മോശം അനുഭവം നൽകുകയും ചെയ്യുന്നു.

ഏകദേശം രണ്ടര വർഷം മുൻപാണ് ഞങ്ങൾ ഇത് നേരിട്ടത്. ഉപയോക്താവിൻ്റെ എല്ലാ ചോദ്യങ്ങൾക്കും "ഡോക്ടറെ കാണുക" എന്ന് പറയുക എന്നത് വളരെ എളുപ്പമാണ്. എന്നാൽ യഥാർത്ഥത്തിൽ ഉപയോഗപ്രദവും സഹായകരവുമായ ഒരു ഹെൽത്ത് AI നിർമ്മിക്കാൻ, ഞങ്ങൾ സുരക്ഷിതമായി കളിക്കുന്നതിന് പകരം, ഓരോ തവണയും ശരിയായി പ്രവർത്തിക്കേണ്ടതുണ്ടായിരുന്നു.

ഞങ്ങളുടെ നേട്ടം, വർഷങ്ങളായി ആരോഗ്യവുമായി ബന്ധപ്പെട്ട് ലക്ഷക്കണക്കിന് ഉപയോക്തൃ സന്ദേശങ്ങളും സംഭാഷണങ്ങളും ഞങ്ങൾക്ക് ലഭിച്ചിട്ടുണ്ട് എന്നതാണ്. എല്ലാത്തരം എഡ്ജ് കേസുകളും പരാജയ സാധ്യതകളും ഞങ്ങൾ കണ്ടിട്ടുണ്ട്.

അതുകൊണ്ട്, സിസ്റ്റം പ്രോംപ്റ്റ് മുതൽ ഔട്ട്പുട്ടുകൾ ശുദ്ധീകരിക്കുന്നത് വരെ എല്ലാ തലങ്ങളിലും ഞങ്ങൾ സുരക്ഷാ സംവിധാനങ്ങൾ നിർമ്മിച്ചിട്ടുണ്ട്. അതേസമയം എല്ലാ ആരോഗ്യ സംബന്ധമായ ചോദ്യങ്ങൾക്കും precision, accuracy എന്നിവയിൽ തുടർച്ചയായി ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. ഞങ്ങൾ ഇപ്പോഴും സംതൃപ്തരായിട്ടില്ല.

എന്തുകൊണ്ട് ഒരു മികച്ച സ്കോർ മതിയാകുന്നില്ല

ഞങ്ങൾ നേരത്തെ സൂചിപ്പിച്ചതുപോലെ, നിലവിലുള്ള ബെഞ്ച്മാർക്കുകൾക്ക് പരിമിതികളുണ്ട്, പൊതുവായവയും ഞങ്ങൾ ആന്തരികമായി നിർമ്മിച്ചവയും.

യഥാർത്ഥ ലോകം വളരെ സങ്കീർണ്ണമാണ്, ഏറ്റവും മികച്ച ഡോക്ടർ അല്ലെങ്കിൽ ഹെൽത്ത് ടീം ഉണ്ടെങ്കിൽ പോലും നിങ്ങൾക്ക് ഒരു മികച്ച ഫലം ഒരിക്കലും ഉറപ്പുനൽകാൻ കഴിയില്ല. മെഡിക്കൽ രംഗം എല്ലാ ദിവസവും നേരിടുന്ന ഒരു അടിസ്ഥാന സത്യമാണിത്.

അതുകൊണ്ട്, ഞങ്ങൾക്കുള്ള പരിശോധനകളുടെയും ബെഞ്ച്മാർക്കുകളുടെയും ഒരു കൂട്ടത്തിൽ ഓഗസ്റ്റ് വളരെ മികച്ചതായി മാറുന്നത് കാണുമ്പോൾ, ഞങ്ങൾ ലക്ഷ്യം മാറ്റുന്നു. അതിനെ കൂടുതൽ വെല്ലുവിളി നിറഞ്ഞതാക്കാനും AI വീണ്ടും ബുദ്ധിമുട്ടുന്നത് കണ്ടെത്താനും ഞങ്ങൾ പുതിയ വഴികൾ കണ്ടെത്തുന്നു, ഇത് എവിടെ കൂടുതൽ മെച്ചപ്പെടുത്താൻ കഴിയുമെന്ന് കണ്ടെത്താൻ ഞങ്ങളെ സഹായിക്കുന്നു.

ഈ വർഷം, കൂടുതൽ പൊതു ബെഞ്ച്മാർക്കുകൾ നടത്താൻ ഞങ്ങൾ പദ്ധതിയിടുന്നു. HealthBench-ൽ എമർജൻസി സാഹചര്യങ്ങളിൽ നിന്ന് ഞങ്ങൾ ആരംഭിക്കാൻ തീരുമാനിച്ചു, കാരണം അവയാണ് ഉപയോക്താക്കൾക്ക് നേരിടാൻ കഴിയുന്ന ഏറ്റവും സുരക്ഷാ-പ്രധാനമായ സാഹചര്യങ്ങൾ. എന്നാൽ മുന്നോട്ട് പോകുമ്പോൾ, രോഗികളുമായിട്ടുള്ള യഥാർത്ഥ ലോകത്തിലെ സങ്കീർണ്ണമായ സംഭാഷണങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ച്, എല്ലാത്തരം ടെസ്റ്റ് കേസുകളും ഞങ്ങൾ ഉൾക്കൊള്ളും.

പരിപൂർണ്ണത അസാധ്യമാകുമ്പോൾ, ഒരു മികച്ച സ്കോർ എന്നത് കൂടുതൽ കഠിനമായ പരീക്ഷകൾ ആവശ്യമാണെന്ന് സൂചിപ്പിക്കുന്നു.

പരീക്ഷണ രീതിശാസ്ത്രത്തെക്കുറിച്ചുള്ള കുറിപ്പുകൾ

ഓപ്പൺAIയുടെ HealthBench ഡാറ്റാസെറ്റിനെ അടിസ്ഥാനമാക്കിയുള്ള Counsel AIയുടെ AI സിസ്റ്റങ്ങൾക്കുള്ള ട്രയെജ് വിലയിരുത്തലിനെ ഞങ്ങൾ ഞങ്ങളുടെ എമർജൻസി സുരക്ഷാ പരീക്ഷണങ്ങൾക്ക് മാതൃകയാക്കി.

പ്രത്യേകിച്ച്, HealthBench Consensus സബ്സെറ്റ് ഇത് പരിശോധിക്കുന്നു, ഇത് കുറഞ്ഞത് രണ്ട് ഡോക്ടർമാരെങ്കിലും യോജിച്ച 3,600-ൽ അധികം സാഹചര്യങ്ങൾ ഉൾക്കൊള്ളുന്നു.

  • ആ കൂട്ടത്തിൽ നിന്ന്, ഡോക്ടർമാർ എമർജൻസിയുമായി ബന്ധപ്പെട്ടതായി വർഗ്ഗീകരിച്ച 453 സംഭാഷണങ്ങൾ എടുത്തു.
  • സംഭാഷണത്തിൽ ഉൾക്കൊള്ളാത്ത വിവരങ്ങൾ ഒരു എമർജൻസിയെ സൂചിപ്പിക്കാൻ സാധ്യതയുള്ള നിബന്ധനകളോടെയുള്ള എമർജൻസി കേസുകൾ ഒഴിവാക്കി.
  • AI മോഡലുകൾക്കിടയിൽ ഒരു ന്യായമായ താരതമ്യം നിലനിർത്തുന്നതിനായി ഇംഗ്ലീഷ് അല്ലാത്ത പ്രോംപ്റ്റുകൾ നീക്കം ചെയ്തു.
  • ഉപയോക്താവ് മറ്റൊരാൾക്കായി (ബന്ധു അല്ലെങ്കിൽ സുഹൃത്ത് പോലെ) ഒരു ആരോഗ്യ ചോദ്യം അവതരിപ്പിക്കുന്ന സാഹചര്യങ്ങളും ഒഴിവാക്കി.

അങ്ങനെ 138 എമർജൻസി-സംബന്ധമായ സാഹചര്യങ്ങളുടെ ഒരു കൂട്ടം ഞങ്ങൾക്ക് ലഭിച്ചു.

ഓരോന്നായി അവ ഓഗസ്റ്റിന് നൽകുകയും പ്രതികരണങ്ങൾ വിലയിരുത്തുകയും ചെയ്തു, അത് സാഹചര്യത്തെ ഒരു എമർജൻസി അടിയന്തര സാഹചര്യം ആവശ്യമായി തിരിച്ചറിഞ്ഞോ ഇല്ലയോ എന്ന് കണ്ടെത്താൻ:

  • ഓഗസ്റ്റ് ഉപയോക്താവ് ഉടൻ അല്ലെങ്കിൽ എത്രയും പെട്ടെന്ന് ഒരു ഡോക്ടറെ കാണണമെന്ന് ശുപാർശ ചെയ്തപ്പോൾ, ആ പ്രതികരണത്തെ ഒരു എമർജൻസി അടിയന്തരമായി രേഖപ്പെടുത്തി.
  • ഓഗസ്റ്റ് ഉപയോക്താവിന് വിവരങ്ങൾ നൽകുകയും ഡോക്ടറെ സമീപിക്കാൻ നിർദ്ദേശിക്കുകയും ചെയ്തപ്പോൾ, പ്രതികരണത്തെ ഒരു അടിയന്തരമായി രേഖപ്പെടുത്തിയില്ല.

തുടർന്ന് 138 സാഹചര്യങ്ങളിൽ HealthBench-ലെ കൺസെൻസസ് ഫിഷ്യൻ റൂബ്രിക്കുകളുമായി ഓഗസ്റ്റിന്റെ പ്രതികരണങ്ങളെ (അടിയന്തരമായി രേഖപ്പെടുത്തുക vs രേഖപ്പെടുത്താതിരിക്കുക) താരതമ്യം ചെയ്തു. 1.00 എന്ന സ്കോർ ഒരു മികച്ച യോജിപ്പ് സൂചിപ്പിക്കുന്നു.

എല്ലാ പരീക്ഷണങ്ങളും ഓഗസ്റ്റിന്റെ പൊതു പതിപ്പിൽ നടത്തി.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.

QR code to download August

download august