Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
சுகாதாரப் பராமரிப்பில் பாதுகாப்பு மிகவும் முக்கியமான காரணியாக இருக்கலாம். பயனர் 100% பாதுகாப்பானது என்று நம்ப முடியாத ஒரு AI உதவியாளர் அல்லது முகவர் உண்மையில் ஆபத்தானது.
ஆகஸ்ட் AI இல் ஆரம்பத்தில் இருந்தே நாங்கள் இதை மிகவும் உணர்வுபூர்வமாக இருந்தோம். ஒரு நபரின் உடல்நிலையை ஒருபோதும் லேசாக எடுத்துக்கொள்ளக்கூடாது. மேலும் பல ஆண்டுகளாக நாங்கள் ஆகஸ்டின் செயல்திறனை பாதுகாப்பு மற்றும் துல்லியத்தில் தொடர்ந்து மேம்படுத்தி வருகிறோம்.
ஆனால் அப்படிச் சொல்வது போதாது, எங்களுக்கு ஒரு புறநிலை அளவீடு தேவை.
சுகாதாரப் பராமரிப்பில் AI திறன்களைச் சோதிப்பதற்கு நிறைய பொதுவான அளவுகோல்கள் இல்லை, குறிப்பாக பாதுகாப்பை நிரூபிக்கப் பயன்படுத்தக்கூடியவை இன்னும் குறைவு.
சிறந்த தேர்வு HealthBench ஆகும், இது OpenAI கடந்த மே மாதம் அறிமுகப்படுத்தியது. இது AI உதவியாளர்களுக்கு எதிராக நாங்கள் சோதிக்கக்கூடிய 5,000 சுகாதார உரையாடல்களின் தரவுத்தொகுப்பு ஆகும். அதற்கு அதன் வரம்புகள் உள்ளன, அவற்றை நாங்கள் விரைவில் விவாதிப்போம். HealthBench Consensus எனப்படும் ஒரு துணைக்குழுவில் நாங்கள் குறிப்பாக கவனம் செலுத்தினோம், மேலும் அவசர நிலைமைகளை உள்ளடக்கிய 138 உரையாடல்களைப் பார்த்தோம்.
Recall (அனைத்து அவசர நிலைகளையும் சரியாக அடையாளம் காணுதல்) மற்றும் precision (அனைத்து அவசரமற்ற நிலைகளையும் சரியாக அடையாளம் காணுதல்) இரண்டிலும் ஆகஸ்ட் 1.00 என்ற சரியான மதிப்பெண்ணைப் பெற்றது.
ஒப்பீட்டளவில், ChatGPT மற்றும் Gemini போன்ற பொதுவான AI அவசர நிலைகளை அதிகரிக்கும் விஷயத்தில் சரியாக செயல்படுகின்றன, ஆனால் அவற்றின் precision மிகவும் மோசமானது, இது கீழே உள்ள படத்தில் காட்டப்பட்டுள்ளது.

தரவு எங்களுக்கு காட்டுவது என்னவென்றால், பொதுவான AI உதவியாளர்கள் மிகவும் கவனமாக இருக்கிறார்கள், இது ஒரு நல்ல தொடக்கப் புள்ளியாகும். ஆனால் அவை நிறைய அவசரமற்ற நிலைகளையும் அதிகரிக்கின்றன, இது மருத்துவர்களின் நேரத்தை வீணடித்து பயனருக்கு மிகவும் மோசமான அனுபவத்தை அளிக்கிறது.
சுமார் இரண்டரை ஆண்டுகளுக்கு முன்பு நாங்கள் இதை எதிர்கொண்டோம். ஒவ்வொரு பயனர் வினவலுக்கும் "மருத்துவரை அணுகவும்" என்று சொல்வது மிகவும் எளிதானது. ஆனால் உண்மையில் பயன்படுத்தக்கூடிய மற்றும் பயனுள்ள ஒரு சுகாதார AI ஐ உருவாக்க, நாம் பாதுகாப்பாக விளையாடாமல், ஒவ்வொரு முறையும் அதைச் சரியாகச் செய்ய வேண்டும்.
எங்களுக்கு கிடைத்த நன்மை என்னவென்றால், பல ஆண்டுகளாக உடல்நலம் சார்ந்த மில்லியன் கணக்கான பயனர் செய்திகள் மற்றும் உரையாடல்கள் எங்களிடம் உள்ளன. நாங்கள் ஒவ்வொரு விளிம்பு வழக்கையும் தோல்வி முறையையும் கண்டோம்.
எனவே, கணினி தூண்டுதல் முதல் வெளியீடுகளை சுத்தப்படுத்துவது வரை, எல்லா நிலைகளிலும் நாங்கள் பாதுகாப்பு தடைகளை உருவாக்கியுள்ளோம். அதே நேரத்தில் அனைத்து சுகாதார வினவல்களுக்கும் precision மற்றும் துல்லியத்தில் தொடர்ந்து கவனம் செலுத்துகிறோம். இன்னும் நாங்கள் திருப்தி அடையவில்லை.
நாம் முன்பே குறிப்பிட்டது போல, பொதுவானவை மற்றும் உள்நாட்டில் நாம் உருவாக்கியவை என தற்போதுள்ள அளவுகோல்களுக்கு வரம்புகள் உள்ளன.
நிஜ உலகம் கடினமானது மற்றும் சிறந்த மருத்துவர் அல்லது சுகாதாரக் குழுவுடன் கூட நீங்கள் ஒருபோதும் சரியான முடிவை உத்தரவாதம் செய்ய முடியாது. மருத்துவத் துறை தினமும் எதிர்கொள்ளும் ஒரு அடிப்படை உண்மை இது.
எனவே, ஆகஸ்ட் ஒரு தொகுதி மதிப்பீடுகள் மற்றும் அளவுகோல்களில் மிகவும் சிறப்பாக செயல்படுவதைக் காணும்போது, நாங்கள் இலக்குகளை மாற்றுகிறோம். அதை மேலும் சவாலானதாக மாற்ற புதிய வழிகளைக் கண்டறிந்து, AI மீண்டும் போராடச் செய்கிறோம், இது நாம் எங்கு இன்னும் சிறப்பாகச் செயல்பட முடியும் என்பதைக் கண்டறிய உதவுகிறது.
இந்த ஆண்டு முழுவதும், மேலும் பொதுவான அளவுகோல்களை இயக்க திட்டமிட்டுள்ளோம். HealthBench இல் அவசர நிலைமைகளுடன் தொடங்க முடிவு செய்தோம், ஏனெனில் அவை பயனர்கள் எதிர்கொள்ளக்கூடிய மிக பாதுகாப்பு-சிக்கலான சூழ்நிலைகளாகும். ஆனால் நாம் செல்லும்போது, நோயாளிகளுடன் உள்ள குழப்பமான நிஜ உலக உரையாடல்களில் கவனம் செலுத்தி, அனைத்து வகையான சோதனை காட்சிகளையும் உள்ளடக்குவோம்.
முழுமை சாத்தியமில்லாத போது, ஒரு சரியான மதிப்பெண் நமக்கு கடினமான சோதனைகள் தேவை என்று அர்த்தம்.
OpenAI இன் HealthBench தரவுத்தொகுப்பை அடிப்படையாகக் கொண்ட Counsel AI இன் triage மதிப்பீட்டில் நாங்கள் எங்கள் அவசர பாதுகாப்பு சோதனையை மாதிரியாகக் கொண்டோம்.
குறிப்பாக, HealthBench Consensus துணைக்குழுவை இது பார்க்கிறது, இது குறைந்தது இரண்டு மருத்துவர்கள் ஒப்புக்கொண்ட 3,600 க்கும் மேற்பட்ட காட்சிகளைக் கொண்டுள்ளது.
அது நமக்கு 138 அவசர நிலை தொடர்பான காட்சிகளின் தொகுப்பை அளித்தது.
ஒவ்வொரு முறையும் அதை ஆகஸ்டுக்குக் கொடுத்து, அவசர நிலை உயர்வு தேவைப்படும் காட்சியாக அது அடையாளம் கண்டதா இல்லையா என்பதை மதிப்பிட்டோம்:
பின்னர், அந்த 138 காட்சிகளுக்கான HealthBench இல் உள்ள ஆகஸ்டின் பதில்களை (உயர்வு vs உயர்வு இல்லை) ஒப்பிட்டோம். 1.00 என்ற மதிப்பெண் ஒரு சரியான பொருத்தத்தைக் குறிக்கிறது.
அனைத்து சோதனைகளும் ஆகஸ்டின் பொதுப் பதிப்பில் நடத்தப்பட்டன.
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.