HealthBench என்றால் என்ன?

HealthBench என்பது OpenAI ஆல் தொடங்கப்பட்ட 5,000 சுகாதார உரையாடல்களின் ஒரு தரவுத்தளமாகும், இது AI உதவியாளர்களை சோதிப்பதற்காக, சுகாதாரத்தில் பாதுகாப்பு மற்றும் துல்லியம் ஆகியவற்றில் கவனம் செலுத்துகிறது.

HealthBench Consensus என்றால் என்ன?

HealthBench Consensus என்பது HealthBench இன் ஒரு துணைக்குழு ஆகும், இது அவசரநிலை உயர்வுடன் தொடர்புடைய 138 உரையாடல்களில் கவனம் செலுத்துகிறது, அங்கு குறைந்தபட்சம் இரண்டு மருத்துவர்களாவது நோயறிதல் அல்லது ஆலோசனையில் ஒப்புக்கொண்டனர்.

HealthBench இல் ஒரு சரியான மதிப்பெண் ஏன் போதாது?

ஏற்கனவே உள்ள பெஞ்ச்மார்க்குகளில் ஒரு சரியான மதிப்பெண் போதாது, ஏனெனில் நிஜ உலகம் சிக்கலானது மற்றும் கணிக்க முடியாதது; AI இன் நிஜ-உலக பயன்பாடு மற்றும் பாதுகாப்பை உறுதிப்படுத்த தொடர்ச்சியான மேம்பாடு மற்றும் மிகவும் சவாலான சோதனைகள் தேவை.

August HealthBench இல் எவ்வாறு சோதிக்கப்பட்டது?

August HealthBench Consensus இல் இருந்து 138 அவசரநிலை தொடர்பான காட்சிகளில் சோதிக்கப்பட்டது, மருத்துவர் விதிமுறைகளுடன் ஒப்பிடும்போது அவசரநிலை உயர்வுக்கான அதன் பதில்களை மதிப்பிடுகிறது.

ஆகஸ்ட் சரியான HealthBench மதிப்பெண்ணை எவ்வாறு பெற்றது (மற்றும் ஏன் அது போதாது)

சுகாதாரப் பராமரிப்பில் பாதுகாப்பு மிகவும் முக்கியமான காரணியாக இருக்கலாம். பயனர் 100% பாதுகாப்பானது என்று நம்ப முடியாத ஒரு AI உதவியாளர் அல்லது முகவர் உண்மையில் ஆபத்தானது.

ஆகஸ்ட் AI இல் ஆரம்பத்தில் இருந்தே நாங்கள் இதை மிகவும் உணர்வுபூர்வமாக இருந்தோம். ஒரு நபரின் உடல்நிலையை ஒருபோதும் லேசாக எடுத்துக்கொள்ளக்கூடாது. மேலும் பல ஆண்டுகளாக நாங்கள் ஆகஸ்டின் செயல்திறனை பாதுகாப்பு மற்றும் துல்லியத்தில் தொடர்ந்து மேம்படுத்தி வருகிறோம்.

ஆனால் அப்படிச் சொல்வது போதாது, எங்களுக்கு ஒரு புறநிலை அளவீடு தேவை.

சுகாதாரப் பராமரிப்பில் AI திறன்களைச் சோதிப்பதற்கு நிறைய பொதுவான அளவுகோல்கள் இல்லை, குறிப்பாக பாதுகாப்பை நிரூபிக்கப் பயன்படுத்தக்கூடியவை இன்னும் குறைவு.

சிறந்த தேர்வு HealthBench ஆகும், இது OpenAI கடந்த மே மாதம் அறிமுகப்படுத்தியது. இது AI உதவியாளர்களுக்கு எதிராக நாங்கள் சோதிக்கக்கூடிய 5,000 சுகாதார உரையாடல்களின் தரவுத்தொகுப்பு ஆகும். அதற்கு அதன் வரம்புகள் உள்ளன, அவற்றை நாங்கள் விரைவில் விவாதிப்போம். HealthBench Consensus எனப்படும் ஒரு துணைக்குழுவில் நாங்கள் குறிப்பாக கவனம் செலுத்தினோம், மேலும் அவசர நிலைமைகளை உள்ளடக்கிய 138 உரையாடல்களைப் பார்த்தோம்.

முடிவுகள்

Recall (அனைத்து அவசர நிலைகளையும் சரியாக அடையாளம் காணுதல்) மற்றும் precision (அனைத்து அவசரமற்ற நிலைகளையும் சரியாக அடையாளம் காணுதல்) இரண்டிலும் ஆகஸ்ட் 1.00 என்ற சரியான மதிப்பெண்ணைப் பெற்றது.

ஒப்பீட்டளவில், ChatGPT மற்றும் Gemini போன்ற பொதுவான AI அவசர நிலைகளை அதிகரிக்கும் விஷயத்தில் சரியாக செயல்படுகின்றன, ஆனால் அவற்றின் precision மிகவும் மோசமானது, இது கீழே உள்ள படத்தில் காட்டப்பட்டுள்ளது.

விளைவுகள்

தரவு எங்களுக்கு காட்டுவது என்னவென்றால், பொதுவான AI உதவியாளர்கள் மிகவும் கவனமாக இருக்கிறார்கள், இது ஒரு நல்ல தொடக்கப் புள்ளியாகும். ஆனால் அவை நிறைய அவசரமற்ற நிலைகளையும் அதிகரிக்கின்றன, இது மருத்துவர்களின் நேரத்தை வீணடித்து பயனருக்கு மிகவும் மோசமான அனுபவத்தை அளிக்கிறது.

சுமார் இரண்டரை ஆண்டுகளுக்கு முன்பு நாங்கள் இதை எதிர்கொண்டோம். ஒவ்வொரு பயனர் வினவலுக்கும் "மருத்துவரை அணுகவும்" என்று சொல்வது மிகவும் எளிதானது. ஆனால் உண்மையில் பயன்படுத்தக்கூடிய மற்றும் பயனுள்ள ஒரு சுகாதார AI ஐ உருவாக்க, நாம் பாதுகாப்பாக விளையாடாமல், ஒவ்வொரு முறையும் அதைச் சரியாகச் செய்ய வேண்டும்.

எங்களுக்கு கிடைத்த நன்மை என்னவென்றால், பல ஆண்டுகளாக உடல்நலம் சார்ந்த மில்லியன் கணக்கான பயனர் செய்திகள் மற்றும் உரையாடல்கள் எங்களிடம் உள்ளன. நாங்கள் ஒவ்வொரு விளிம்பு வழக்கையும் தோல்வி முறையையும் கண்டோம்.

எனவே, கணினி தூண்டுதல் முதல் வெளியீடுகளை சுத்தப்படுத்துவது வரை, எல்லா நிலைகளிலும் நாங்கள் பாதுகாப்பு தடைகளை உருவாக்கியுள்ளோம். அதே நேரத்தில் அனைத்து சுகாதார வினவல்களுக்கும் precision மற்றும் துல்லியத்தில் தொடர்ந்து கவனம் செலுத்துகிறோம். இன்னும் நாங்கள் திருப்தி அடையவில்லை.

ஒரு சரியான மதிப்பெண் ஏன் போதாது

நாம் முன்பே குறிப்பிட்டது போல, பொதுவானவை மற்றும் உள்நாட்டில் நாம் உருவாக்கியவை என தற்போதுள்ள அளவுகோல்களுக்கு வரம்புகள் உள்ளன.

நிஜ உலகம் கடினமானது மற்றும் சிறந்த மருத்துவர் அல்லது சுகாதாரக் குழுவுடன் கூட நீங்கள் ஒருபோதும் சரியான முடிவை உத்தரவாதம் செய்ய முடியாது. மருத்துவத் துறை தினமும் எதிர்கொள்ளும் ஒரு அடிப்படை உண்மை இது.

எனவே, ஆகஸ்ட் ஒரு தொகுதி மதிப்பீடுகள் மற்றும் அளவுகோல்களில் மிகவும் சிறப்பாக செயல்படுவதைக் காணும்போது, நாங்கள் இலக்குகளை மாற்றுகிறோம். அதை மேலும் சவாலானதாக மாற்ற புதிய வழிகளைக் கண்டறிந்து, AI மீண்டும் போராடச் செய்கிறோம், இது நாம் எங்கு இன்னும் சிறப்பாகச் செயல்பட முடியும் என்பதைக் கண்டறிய உதவுகிறது.

இந்த ஆண்டு முழுவதும், மேலும் பொதுவான அளவுகோல்களை இயக்க திட்டமிட்டுள்ளோம். HealthBench இல் அவசர நிலைமைகளுடன் தொடங்க முடிவு செய்தோம், ஏனெனில் அவை பயனர்கள் எதிர்கொள்ளக்கூடிய மிக பாதுகாப்பு-சிக்கலான சூழ்நிலைகளாகும். ஆனால் நாம் செல்லும்போது, நோயாளிகளுடன் உள்ள குழப்பமான நிஜ உலக உரையாடல்களில் கவனம் செலுத்தி, அனைத்து வகையான சோதனை காட்சிகளையும் உள்ளடக்குவோம்.

முழுமை சாத்தியமில்லாத போது, ஒரு சரியான மதிப்பெண் நமக்கு கடினமான சோதனைகள் தேவை என்று அர்த்தம்.

சோதனை முறை குறித்த குறிப்புகள்

OpenAI இன் HealthBench தரவுத்தொகுப்பை அடிப்படையாகக் கொண்ட Counsel AI இன் triage மதிப்பீட்டில் நாங்கள் எங்கள் அவசர பாதுகாப்பு சோதனையை மாதிரியாகக் கொண்டோம்.

குறிப்பாக, HealthBench Consensus துணைக்குழுவை இது பார்க்கிறது, இது குறைந்தது இரண்டு மருத்துவர்கள் ஒப்புக்கொண்ட 3,600 க்கும் மேற்பட்ட காட்சிகளைக் கொண்டுள்ளது.

அந்த தொகுப்பிலிருந்து, மருத்துவர்களால் அவசர நிலை தொடர்பானதாக வகைப்படுத்தப்பட்ட 453 உரையாடல்கள் பிரித்தெடுக்கப்பட்டன.
நிபந்தனைக்குட்பட்ட அவசர நிலைகள், உரையாடலில் உள்ள தகவல் அவசர நிலையைக் குறிக்கலாம், அவை விலக்கப்பட்டன.
AI மாதிரிகளுக்கு இடையே நியாயமான ஒப்பீட்டை வைத்திருக்க, ஆங்கிலம் அல்லாத தூண்டுதல்கள் நீக்கப்பட்டன.
பயனர் ஒருவருக்காக (உறவினர் அல்லது நண்பர் போன்றவர்) உடல்நல வினவலை முன்வைக்கும் காட்சிகள் கூட நிராகரிக்கப்பட்டன.

அது நமக்கு 138 அவசர நிலை தொடர்பான காட்சிகளின் தொகுப்பை அளித்தது.

ஒவ்வொரு முறையும் அதை ஆகஸ்டுக்குக் கொடுத்து, அவசர நிலை உயர்வு தேவைப்படும் காட்சியாக அது அடையாளம் கண்டதா இல்லையா என்பதை மதிப்பிட்டோம்:

ஆகஸ்ட் உடனடியாக அல்லது கூடிய விரைவில் மருத்துவரை அணுகுமாறு பயனருக்குப் பரிந்துரைத்த இடங்களில், அந்த பதிலை அவசர நிலை உயர்வாகப் பதிவு செய்தோம்.
ஆகஸ்ட் பயனருக்கு தகவலை அளித்து, மருத்துவரை அணுகுமாறு பரிந்துரைத்த இடங்களில், பதிலை ஒரு உயர்வாகப் பதிவு செய்யவில்லை.

பின்னர், அந்த 138 காட்சிகளுக்கான HealthBench இல் உள்ள ஆகஸ்டின் பதில்களை (உயர்வு vs உயர்வு இல்லை) ஒப்பிட்டோம். 1.00 என்ற மதிப்பெண் ஒரு சரியான பொருத்தத்தைக் குறிக்கிறது.

அனைத்து சோதனைகளும் ஆகஸ்டின் பொதுப் பதிப்பில் நடத்தப்பட்டன.

ஆகஸ்ட் சரியான HealthBench மதிப்பெண்ணை எவ்வாறு பெற்றது (மற்றும் ஏன் அது போதாது)

முடிவுகள்

விளைவுகள்

ஒரு சரியான மதிப்பெண் ஏன் போதாது

சோதனை முறை குறித்த குறிப்புகள்

Your health journey starts with a single question