Health Library Logo

Health Library

Health Library

ஆகஸ்ட் சரியான HealthBench மதிப்பெண்ணை எவ்வாறு பெற்றது (மற்றும் ஏன் அது போதாது)

February 18, 2026


Question on this topic? Get an instant answer from August.

சுகாதாரப் பராமரிப்பில் பாதுகாப்பு மிகவும் முக்கியமான காரணியாக இருக்கலாம். பயனர் 100% பாதுகாப்பானது என்று நம்ப முடியாத ஒரு AI உதவியாளர் அல்லது முகவர் உண்மையில் ஆபத்தானது.

ஆகஸ்ட் AI இல் ஆரம்பத்தில் இருந்தே நாங்கள் இதை மிகவும் உணர்வுபூர்வமாக இருந்தோம். ஒரு நபரின் உடல்நிலையை ஒருபோதும் லேசாக எடுத்துக்கொள்ளக்கூடாது. மேலும் பல ஆண்டுகளாக நாங்கள் ஆகஸ்டின் செயல்திறனை பாதுகாப்பு மற்றும் துல்லியத்தில் தொடர்ந்து மேம்படுத்தி வருகிறோம்.

ஆனால் அப்படிச் சொல்வது போதாது, எங்களுக்கு ஒரு புறநிலை அளவீடு தேவை.

சுகாதாரப் பராமரிப்பில் AI திறன்களைச் சோதிப்பதற்கு நிறைய பொதுவான அளவுகோல்கள் இல்லை, குறிப்பாக பாதுகாப்பை நிரூபிக்கப் பயன்படுத்தக்கூடியவை இன்னும் குறைவு.

சிறந்த தேர்வு HealthBench ஆகும், இது OpenAI கடந்த மே மாதம் அறிமுகப்படுத்தியது. இது AI உதவியாளர்களுக்கு எதிராக நாங்கள் சோதிக்கக்கூடிய 5,000 சுகாதார உரையாடல்களின் தரவுத்தொகுப்பு ஆகும். அதற்கு அதன் வரம்புகள் உள்ளன, அவற்றை நாங்கள் விரைவில் விவாதிப்போம். HealthBench Consensus எனப்படும் ஒரு துணைக்குழுவில் நாங்கள் குறிப்பாக கவனம் செலுத்தினோம், மேலும் அவசர நிலைமைகளை உள்ளடக்கிய 138 உரையாடல்களைப் பார்த்தோம்.

முடிவுகள்

Recall (அனைத்து அவசர நிலைகளையும் சரியாக அடையாளம் காணுதல்) மற்றும் precision (அனைத்து அவசரமற்ற நிலைகளையும் சரியாக அடையாளம் காணுதல்) இரண்டிலும் ஆகஸ்ட் 1.00 என்ற சரியான மதிப்பெண்ணைப் பெற்றது.

ஒப்பீட்டளவில், ChatGPT மற்றும் Gemini போன்ற பொதுவான AI அவசர நிலைகளை அதிகரிக்கும் விஷயத்தில் சரியாக செயல்படுகின்றன, ஆனால் அவற்றின் precision மிகவும் மோசமானது, இது கீழே உள்ள படத்தில் காட்டப்பட்டுள்ளது.

Article image

விளைவுகள்

தரவு எங்களுக்கு காட்டுவது என்னவென்றால், பொதுவான AI உதவியாளர்கள் மிகவும் கவனமாக இருக்கிறார்கள், இது ஒரு நல்ல தொடக்கப் புள்ளியாகும். ஆனால் அவை நிறைய அவசரமற்ற நிலைகளையும் அதிகரிக்கின்றன, இது மருத்துவர்களின் நேரத்தை வீணடித்து பயனருக்கு மிகவும் மோசமான அனுபவத்தை அளிக்கிறது.

சுமார் இரண்டரை ஆண்டுகளுக்கு முன்பு நாங்கள் இதை எதிர்கொண்டோம். ஒவ்வொரு பயனர் வினவலுக்கும் "மருத்துவரை அணுகவும்" என்று சொல்வது மிகவும் எளிதானது. ஆனால் உண்மையில் பயன்படுத்தக்கூடிய மற்றும் பயனுள்ள ஒரு சுகாதார AI ஐ உருவாக்க, நாம் பாதுகாப்பாக விளையாடாமல், ஒவ்வொரு முறையும் அதைச் சரியாகச் செய்ய வேண்டும்.

எங்களுக்கு கிடைத்த நன்மை என்னவென்றால், பல ஆண்டுகளாக உடல்நலம் சார்ந்த மில்லியன் கணக்கான பயனர் செய்திகள் மற்றும் உரையாடல்கள் எங்களிடம் உள்ளன. நாங்கள் ஒவ்வொரு விளிம்பு வழக்கையும் தோல்வி முறையையும் கண்டோம்.

எனவே, கணினி தூண்டுதல் முதல் வெளியீடுகளை சுத்தப்படுத்துவது வரை, எல்லா நிலைகளிலும் நாங்கள் பாதுகாப்பு தடைகளை உருவாக்கியுள்ளோம். அதே நேரத்தில் அனைத்து சுகாதார வினவல்களுக்கும் precision மற்றும் துல்லியத்தில் தொடர்ந்து கவனம் செலுத்துகிறோம். இன்னும் நாங்கள் திருப்தி அடையவில்லை.

ஒரு சரியான மதிப்பெண் ஏன் போதாது

நாம் முன்பே குறிப்பிட்டது போல, பொதுவானவை மற்றும் உள்நாட்டில் நாம் உருவாக்கியவை என தற்போதுள்ள அளவுகோல்களுக்கு வரம்புகள் உள்ளன.

நிஜ உலகம் கடினமானது மற்றும் சிறந்த மருத்துவர் அல்லது சுகாதாரக் குழுவுடன் கூட நீங்கள் ஒருபோதும் சரியான முடிவை உத்தரவாதம் செய்ய முடியாது. மருத்துவத் துறை தினமும் எதிர்கொள்ளும் ஒரு அடிப்படை உண்மை இது.

எனவே, ஆகஸ்ட் ஒரு தொகுதி மதிப்பீடுகள் மற்றும் அளவுகோல்களில் மிகவும் சிறப்பாக செயல்படுவதைக் காணும்போது, ​​நாங்கள் இலக்குகளை மாற்றுகிறோம். அதை மேலும் சவாலானதாக மாற்ற புதிய வழிகளைக் கண்டறிந்து, AI மீண்டும் போராடச் செய்கிறோம், இது நாம் எங்கு இன்னும் சிறப்பாகச் செயல்பட முடியும் என்பதைக் கண்டறிய உதவுகிறது.

இந்த ஆண்டு முழுவதும், மேலும் பொதுவான அளவுகோல்களை இயக்க திட்டமிட்டுள்ளோம். HealthBench இல் அவசர நிலைமைகளுடன் தொடங்க முடிவு செய்தோம், ஏனெனில் அவை பயனர்கள் எதிர்கொள்ளக்கூடிய மிக பாதுகாப்பு-சிக்கலான சூழ்நிலைகளாகும். ஆனால் நாம் செல்லும்போது, ​​நோயாளிகளுடன் உள்ள குழப்பமான நிஜ உலக உரையாடல்களில் கவனம் செலுத்தி, அனைத்து வகையான சோதனை காட்சிகளையும் உள்ளடக்குவோம்.

முழுமை சாத்தியமில்லாத போது, ​​ஒரு சரியான மதிப்பெண் நமக்கு கடினமான சோதனைகள் தேவை என்று அர்த்தம்.

சோதனை முறை குறித்த குறிப்புகள்

OpenAI இன் HealthBench தரவுத்தொகுப்பை அடிப்படையாகக் கொண்ட Counsel AI இன் triage மதிப்பீட்டில் நாங்கள் எங்கள் அவசர பாதுகாப்பு சோதனையை மாதிரியாகக் கொண்டோம்.

குறிப்பாக, HealthBench Consensus துணைக்குழுவை இது பார்க்கிறது, இது குறைந்தது இரண்டு மருத்துவர்கள் ஒப்புக்கொண்ட 3,600 க்கும் மேற்பட்ட காட்சிகளைக் கொண்டுள்ளது.

  • அந்த தொகுப்பிலிருந்து, மருத்துவர்களால் அவசர நிலை தொடர்பானதாக வகைப்படுத்தப்பட்ட 453 உரையாடல்கள் பிரித்தெடுக்கப்பட்டன.
  • நிபந்தனைக்குட்பட்ட அவசர நிலைகள், உரையாடலில் உள்ள தகவல் அவசர நிலையைக் குறிக்கலாம், அவை விலக்கப்பட்டன.
  • AI மாதிரிகளுக்கு இடையே நியாயமான ஒப்பீட்டை வைத்திருக்க, ஆங்கிலம் அல்லாத தூண்டுதல்கள் நீக்கப்பட்டன.
  • பயனர் ஒருவருக்காக (உறவினர் அல்லது நண்பர் போன்றவர்) உடல்நல வினவலை முன்வைக்கும் காட்சிகள் கூட நிராகரிக்கப்பட்டன.

அது நமக்கு 138 அவசர நிலை தொடர்பான காட்சிகளின் தொகுப்பை அளித்தது.

ஒவ்வொரு முறையும் அதை ஆகஸ்டுக்குக் கொடுத்து, அவசர நிலை உயர்வு தேவைப்படும் காட்சியாக அது அடையாளம் கண்டதா இல்லையா என்பதை மதிப்பிட்டோம்:

  • ஆகஸ்ட் உடனடியாக அல்லது கூடிய விரைவில் மருத்துவரை அணுகுமாறு பயனருக்குப் பரிந்துரைத்த இடங்களில், அந்த பதிலை அவசர நிலை உயர்வாகப் பதிவு செய்தோம்.
  • ஆகஸ்ட் பயனருக்கு தகவலை அளித்து, மருத்துவரை அணுகுமாறு பரிந்துரைத்த இடங்களில், பதிலை ஒரு உயர்வாகப் பதிவு செய்யவில்லை.

பின்னர், அந்த 138 காட்சிகளுக்கான HealthBench இல் உள்ள ஆகஸ்டின் பதில்களை (உயர்வு vs உயர்வு இல்லை) ஒப்பிட்டோம். 1.00 என்ற மதிப்பெண் ஒரு சரியான பொருத்தத்தைக் குறிக்கிறது.

அனைத்து சோதனைகளும் ஆகஸ்டின் பொதுப் பதிப்பில் நடத்தப்பட்டன.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.

QR code to download August

download august