Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
ആരോഗ്യ സംരക്ഷണത്തിൽ സുരക്ഷയാണ് ഒരുപക്ഷേ ഏറ്റവും പ്രധാനപ്പെട്ട ഘടകം. നൂറു ശതമാനം സുരക്ഷിതമാണെന്ന് ഉപയോക്താവിന് വിശ്വസിക്കാൻ കഴിയാത്ത ഒരു AI അസിസ്റ്റന്റ് അല്ലെങ്കിൽ ഏജന്റ് യഥാർത്ഥത്തിൽ അപകടകരമാണ്.
ഓഗസ്റ്റ് AI-ൽ തുടക്കം മുതൽ തന്നെ ഞങ്ങൾ വളരെ ശ്രദ്ധിച്ചിട്ടുള്ള ഒന്നാണ്. ഒരാളുടെ ആരോഗ്യത്തെ ഒരിക്കലും നിസ്സാരമായി കാണരുത്. വർഷങ്ങളായി സുരക്ഷയിലും കൃത്യതയിലും ഓഗസ്റ്റിന്റെ പ്രകടനം ഞങ്ങൾ നിരന്തരം മെച്ചപ്പെടുത്തി വരുന്നു.
എന്നാൽ അത് പറയുന്നതുകൊണ്ട് മാത്രം കാര്യമില്ല, ഞങ്ങൾക്ക് ഒരു വസ്തുനിഷ്ഠമായ അളവ് ആവശ്യമാണ്.
ആരോഗ്യ സംരക്ഷണത്തിൽ AI കഴിവിനെ പരീക്ഷിക്കാൻ പൊതുവായി ലഭ്യമായ മികച്ച ബെഞ്ച്മാർക്കുകൾ അധികമില്ല, പ്രത്യേകിച്ചും സുരക്ഷ തെളിയിക്കാൻ ഉപയോഗിക്കാവുന്നവ അതിലും കുറവാണ്.
ഏറ്റവും നല്ല ഓപ്ഷൻ ഓപ്പൺAI കഴിഞ്ഞ മെയ് മാസം പുറത്തിറക്കിയ ഹെൽത്ത്ബെഞ്ച് ആണ്. AI അസിസ്റ്റന്റുകളെ പരീക്ഷിക്കാൻ കഴിയുന്ന 5,000 ആരോഗ്യ സംഭാഷണങ്ങളുടെ ഒരു ഡാറ്റാസെറ്റാണിത്. ഇതിന് അതിൻ്റേതായ പരിമിതികളുണ്ട്, അത് ഞങ്ങൾ ഉടൻ തന്നെ വിശദീകരിക്കുന്നതാണ്. HealthBench Consensus എന്ന ഒരു സബ്സെറ്റിൽ ഞങ്ങൾ പ്രത്യേകമായി ശ്രദ്ധ കേന്ദ്രീകരിക്കുകയും, എമർജൻസി അടിയന്തര സാഹചര്യങ്ങളുമായി ബന്ധപ്പെട്ട 138 സംഭാഷണങ്ങൾ പരിശോധിക്കുകയും ചെയ്തു.
എല്ലാ എമർജൻസികളും ശരിയായി തിരിച്ചറിയുന്നതിലും (recall) എല്ലാ നോൺ-എമർജൻസികളും ശരിയായി തിരിച്ചറിയുന്നതിലും (precision) ഓഗസ്റ്റ് 1.00 എന്ന മികച്ച സ്കോർ നേടി.
ഇതൊരു താരതമ്യം ചെയ്യുമ്പോൾ, ChatGPT, Gemini പോലുള്ള സാധാരണ AIകൾ എല്ലാ എമർജൻസികളും അടിയന്തരമായി രേഖപ്പെടുത്തുന്നതിൽ മികച്ചതാണ്, എന്നാൽ അവയുടെ precision വളരെ മോശമാണ്, താഴെ കാണുന്ന ചാർട്ട് ഇത് വ്യക്തമാക്കുന്നു.

ഡാറ്റ നമ്മോട് പറയുന്നത് സാധാരണ AI അസിസ്റ്റന്റുകൾ വളരെ ജാഗ്രത പുലർത്തുന്നു എന്നാണ്, ഇത് ഒരു നല്ല തുടക്കമാണ്. എന്നാൽ അവ പല നോൺ-എമർജൻസികളും അടിയന്തരമായി രേഖപ്പെടുത്തുന്നു, ഇത് ഡോക്ടർമാരുടെ സമയം നഷ്ടപ്പെടുത്തുകയും ഉപയോക്താവിന് വളരെ മോശം അനുഭവം നൽകുകയും ചെയ്യുന്നു.
ഏകദേശം രണ്ടര വർഷം മുൻപാണ് ഞങ്ങൾ ഇത് നേരിട്ടത്. ഉപയോക്താവിൻ്റെ എല്ലാ ചോദ്യങ്ങൾക്കും "ഡോക്ടറെ കാണുക" എന്ന് പറയുക എന്നത് വളരെ എളുപ്പമാണ്. എന്നാൽ യഥാർത്ഥത്തിൽ ഉപയോഗപ്രദവും സഹായകരവുമായ ഒരു ഹെൽത്ത് AI നിർമ്മിക്കാൻ, ഞങ്ങൾ സുരക്ഷിതമായി കളിക്കുന്നതിന് പകരം, ഓരോ തവണയും ശരിയായി പ്രവർത്തിക്കേണ്ടതുണ്ടായിരുന്നു.
ഞങ്ങളുടെ നേട്ടം, വർഷങ്ങളായി ആരോഗ്യവുമായി ബന്ധപ്പെട്ട് ലക്ഷക്കണക്കിന് ഉപയോക്തൃ സന്ദേശങ്ങളും സംഭാഷണങ്ങളും ഞങ്ങൾക്ക് ലഭിച്ചിട്ടുണ്ട് എന്നതാണ്. എല്ലാത്തരം എഡ്ജ് കേസുകളും പരാജയ സാധ്യതകളും ഞങ്ങൾ കണ്ടിട്ടുണ്ട്.
അതുകൊണ്ട്, സിസ്റ്റം പ്രോംപ്റ്റ് മുതൽ ഔട്ട്പുട്ടുകൾ ശുദ്ധീകരിക്കുന്നത് വരെ എല്ലാ തലങ്ങളിലും ഞങ്ങൾ സുരക്ഷാ സംവിധാനങ്ങൾ നിർമ്മിച്ചിട്ടുണ്ട്. അതേസമയം എല്ലാ ആരോഗ്യ സംബന്ധമായ ചോദ്യങ്ങൾക്കും precision, accuracy എന്നിവയിൽ തുടർച്ചയായി ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. ഞങ്ങൾ ഇപ്പോഴും സംതൃപ്തരായിട്ടില്ല.
ഞങ്ങൾ നേരത്തെ സൂചിപ്പിച്ചതുപോലെ, നിലവിലുള്ള ബെഞ്ച്മാർക്കുകൾക്ക് പരിമിതികളുണ്ട്, പൊതുവായവയും ഞങ്ങൾ ആന്തരികമായി നിർമ്മിച്ചവയും.
യഥാർത്ഥ ലോകം വളരെ സങ്കീർണ്ണമാണ്, ഏറ്റവും മികച്ച ഡോക്ടർ അല്ലെങ്കിൽ ഹെൽത്ത് ടീം ഉണ്ടെങ്കിൽ പോലും നിങ്ങൾക്ക് ഒരു മികച്ച ഫലം ഒരിക്കലും ഉറപ്പുനൽകാൻ കഴിയില്ല. മെഡിക്കൽ രംഗം എല്ലാ ദിവസവും നേരിടുന്ന ഒരു അടിസ്ഥാന സത്യമാണിത്.
അതുകൊണ്ട്, ഞങ്ങൾക്കുള്ള പരിശോധനകളുടെയും ബെഞ്ച്മാർക്കുകളുടെയും ഒരു കൂട്ടത്തിൽ ഓഗസ്റ്റ് വളരെ മികച്ചതായി മാറുന്നത് കാണുമ്പോൾ, ഞങ്ങൾ ലക്ഷ്യം മാറ്റുന്നു. അതിനെ കൂടുതൽ വെല്ലുവിളി നിറഞ്ഞതാക്കാനും AI വീണ്ടും ബുദ്ധിമുട്ടുന്നത് കണ്ടെത്താനും ഞങ്ങൾ പുതിയ വഴികൾ കണ്ടെത്തുന്നു, ഇത് എവിടെ കൂടുതൽ മെച്ചപ്പെടുത്താൻ കഴിയുമെന്ന് കണ്ടെത്താൻ ഞങ്ങളെ സഹായിക്കുന്നു.
ഈ വർഷം, കൂടുതൽ പൊതു ബെഞ്ച്മാർക്കുകൾ നടത്താൻ ഞങ്ങൾ പദ്ധതിയിടുന്നു. HealthBench-ൽ എമർജൻസി സാഹചര്യങ്ങളിൽ നിന്ന് ഞങ്ങൾ ആരംഭിക്കാൻ തീരുമാനിച്ചു, കാരണം അവയാണ് ഉപയോക്താക്കൾക്ക് നേരിടാൻ കഴിയുന്ന ഏറ്റവും സുരക്ഷാ-പ്രധാനമായ സാഹചര്യങ്ങൾ. എന്നാൽ മുന്നോട്ട് പോകുമ്പോൾ, രോഗികളുമായിട്ടുള്ള യഥാർത്ഥ ലോകത്തിലെ സങ്കീർണ്ണമായ സംഭാഷണങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ച്, എല്ലാത്തരം ടെസ്റ്റ് കേസുകളും ഞങ്ങൾ ഉൾക്കൊള്ളും.
പരിപൂർണ്ണത അസാധ്യമാകുമ്പോൾ, ഒരു മികച്ച സ്കോർ എന്നത് കൂടുതൽ കഠിനമായ പരീക്ഷകൾ ആവശ്യമാണെന്ന് സൂചിപ്പിക്കുന്നു.
ഓപ്പൺAIയുടെ HealthBench ഡാറ്റാസെറ്റിനെ അടിസ്ഥാനമാക്കിയുള്ള Counsel AIയുടെ AI സിസ്റ്റങ്ങൾക്കുള്ള ട്രയെജ് വിലയിരുത്തലിനെ ഞങ്ങൾ ഞങ്ങളുടെ എമർജൻസി സുരക്ഷാ പരീക്ഷണങ്ങൾക്ക് മാതൃകയാക്കി.
പ്രത്യേകിച്ച്, HealthBench Consensus സബ്സെറ്റ് ഇത് പരിശോധിക്കുന്നു, ഇത് കുറഞ്ഞത് രണ്ട് ഡോക്ടർമാരെങ്കിലും യോജിച്ച 3,600-ൽ അധികം സാഹചര്യങ്ങൾ ഉൾക്കൊള്ളുന്നു.
അങ്ങനെ 138 എമർജൻസി-സംബന്ധമായ സാഹചര്യങ്ങളുടെ ഒരു കൂട്ടം ഞങ്ങൾക്ക് ലഭിച്ചു.
ഓരോന്നായി അവ ഓഗസ്റ്റിന് നൽകുകയും പ്രതികരണങ്ങൾ വിലയിരുത്തുകയും ചെയ്തു, അത് സാഹചര്യത്തെ ഒരു എമർജൻസി അടിയന്തര സാഹചര്യം ആവശ്യമായി തിരിച്ചറിഞ്ഞോ ഇല്ലയോ എന്ന് കണ്ടെത്താൻ:
തുടർന്ന് 138 സാഹചര്യങ്ങളിൽ HealthBench-ലെ കൺസെൻസസ് ഫിഷ്യൻ റൂബ്രിക്കുകളുമായി ഓഗസ്റ്റിന്റെ പ്രതികരണങ്ങളെ (അടിയന്തരമായി രേഖപ്പെടുത്തുക vs രേഖപ്പെടുത്താതിരിക്കുക) താരതമ്യം ചെയ്തു. 1.00 എന്ന സ്കോർ ഒരു മികച്ച യോജിപ്പ് സൂചിപ്പിക്കുന്നു.
എല്ലാ പരീക്ഷണങ്ങളും ഓഗസ്റ്റിന്റെ പൊതു പതിപ്പിൽ നടത്തി.
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.