Health Library

අගෝස්තු පරිපූර්ණ HealthBench ලකුණු ලබා ගත්තේ කෙසේද (සහ එය ප්‍රමාණවත් නොවන්නේ ඇයි)

February 18, 2026

Question on this topic? Get an instant answer from August.

සෞඛ්‍ය සේවා වලදී ආරක්ෂාව බොහෝ විට වඩාත්ම වැදගත් සාධකය වේ. පරිශීලකයාට 100% ආරක්ෂිත බව විශ්වාස කළ නොහැකි AI සහායකයෙකු හෝ නියෝජිතයෙකු ඇත්තෙන්ම භයානක ය.

මෙය අගෝස්තු AI හි ආරම්භයේ සිටම අපි ඉතා සිහිබුද්ධියෙන් සිටි දෙයකි. පුද්ගලයෙකුගේ සෞඛ්‍යය කිසි විටෙකත් සැහැල්ලුවට ගත යුතු නොවේ. වසර ගණනාවක් පුරා අපි අගෝස්තුගේ ආරක්ෂාව සහ නිරවද්‍යතාවය පිළිබඳ කාර්ය සාධනය අඛණ්ඩව වැඩිදියුණු කර ඇත්තෙමු.

නමුත් එසේ කීම ප්‍රමාණවත් නොවේ, අපට වෛෂයික මිනුමක් අවශ්‍යයි.

සෞඛ්‍ය සේවා වලදී AI හැකියාවන් පරීක්ෂා කිරීම සඳහා හොඳ පොදු බහුලක ලකුණු කිහිපයක් නොමැති අතර, විශේෂයෙන් ආරක්ෂාව ප්‍රදර්ශනය කිරීමට භාවිතා කළ හැකි ඒවා ඊටත් වඩා අඩුය.

හොඳම විකල්පය වන්නේ OpenAI පසුගිය මැයි මාසයේ දියත් කළ HealthBench ය. එය AI සහායකයින්ට එරෙහිව පරීක්ෂා කළ හැකි සෞඛ්‍ය සංවාද 5,000 ක දත්ත සමූහයකි. එයට එහි සීමාවන් ඇත, ඒ ගැන අපි ටිකකින් කතා කරන්නෙමු. අපි විශේෂයෙන් HealthBench Consensus නම් උප කට්ටලයක් කෙරෙහි අවධානය යොමු කළ අතර, හදිසි අවස්ථා සම්බන්ධ වූ සංවාද 138 ක් දෙස බැලුවෙමු.

ප්‍රතිඵල

අගෝස්තු සියලුම හදිසි අවස්ථා නිවැරදිව හඳුනාගැනීම (recall) සහ සියලුම හදිසි නොවන අවස්ථා නිවැරදිව හඳුනාගැනීම (precision) යන දෙකෙහිම පරිපූර්ණ 1.00 ලකුණු ලබා ගත්තේය.

ඊට අමතරව, ChatGPT සහ Gemini වැනි සාමාන්‍ය AI හදිසි අවස්ථා ඉහළ දැමීම සම්බන්ධයෙන් පරිපූර්ණ ලෙස ක්‍රියා කරයි, නමුත් පහත රූප සටහනේ දැක්වෙන පරිදි ඔවුන්ගේ නිරවද්‍යතාවය ඉතා නරක ය.

ඇඟවුම්

දත්ත අපට පෙන්වා දෙන්නේ සාමාන්‍ය AI සහායකයින් අතිශයින්ම කල්පනාකාරී වන බවයි, එය හොඳ ආරම්භක ලක්ෂ්‍යයකි. නමුත් ඔවුන් බොහෝ හදිසි නොවන අවස්ථා ඉහළ නංවන අතර, එය වෛද්‍යවරුන්ගේ කාලය නාස්ති කිරීමට සහ පරිශීලකයාට වඩා නරක අත්දැකීමක් ලබා දීමට හේතු වේ.

අපි මේ තත්වයට මුහුණ දුන්නේ මීට වසර දෙකහමාරකට පමණ පෙරය. සෑම පරිශීලක විමසුමකටම "වෛද්‍යවරයෙකු හමුවන්න" යැයි පැවසීම ඉතා පහසුය. නමුත් ඇත්තෙන්ම භාවිතා කළ හැකි සහ ප්‍රයෝජනවත් සෞඛ්‍ය AI එකක් ගොඩනැගීමට, අපට එය සෑම විටම නිවැරදිව කිරීමට අවශ්‍ය විය, ආරක්ෂිතව පමණක් ක්‍රීඩා කිරීමට නොවේ.

අපගේ වාසිය නම්, වසර ගණනාවක් පුරා සෞඛ්‍යය පිළිබඳව පමණක් වූ මිලියන ගණනක් පරිශීලක පණිවිඩ සහ සංවාද අප සතුව තිබීමයි. අපි සෑම අවසාන අවස්ථාවක් සහ අසාර්ථක මාදිලියක්ම දැක ඇත්තෙමු.

එබැවින් අපි පද්ධති විමසුමේ සිට ප්‍රතිදානයන් සනීපාරක්ෂා කිරීම දක්වා සෑම මට්ටමකම ආරක්ෂණ වැටවල් ගොඩනඟා ඇත්තෙමු. ඒ අතරම සියලුම සෞඛ්‍ය විමසුම් සඳහා නිරවද්‍යතාවය සහ නිරවද්‍යතාවය කෙරෙහි නොකඩවා අවධානය යොමු කර ඇත්තෙමු. අපි තවමත් සෑහීමකට පත්ව නැත.

සම්පූර්ණ ලකුණු ප්‍රමාණවත් නොවන්නේ ඇයි

අප කලින් සඳහන් කළ පරිදි, පවතින බහුලක ලකුණු වල සීමාවන් ඇත, පොදු ඒවා මෙන්ම අප අභ්‍යන්තර භාවිතය සඳහා ගොඩනඟා ඇති ඒවාද.

සැබෑ ලෝකය දුෂ්කර වන අතර, හොඳම වෛද්‍යවරයා හෝ සෞඛ්‍ය සේවා කණ්ඩායම සමඟ වුවද, ඔබට පරිපූර්ණ ප්‍රතිඵලයක් කිසි විටෙකත් සහතික කළ නොහැක. වෛද්‍ය ප්‍රජාව සෑම දිනකම මුහුණ දෙන මූලික සත්‍යයකි.

එබැවින් අගෝස්තු අප සතුව ඇති තක්සේරු සහ බහුලක කට්ටලයක ඉතා හොඳින් ක්‍රියා කරන බව අපි දුටු විට, අපි ඉලක්ක වෙනස් කරමු. අපි එය වඩාත් අභියෝගාත්මක කිරීමට නව ක්‍රම සොයාගෙන AI නැවතත් අරගල කරන අතර, එය අපට තවත් හොඳින් කළ හැකි ස්ථාන සොයා ගැනීමට උපකාරී වේ.

මෙම වසර පුරා, අපි තවත් පොදු බහුලක ලකුණු ධාවනය කිරීමට සැලසුම් කරමු. අපි HealthBench හි හදිසි අවස්ථා වලින් ආරම්භ කිරීමට තීරණය කළෙමු, මන්ද ඒවා පරිශීලකයාට මුහුණ දිය හැකි වඩාත්ම ආරක්ෂිත-විවේචනාත්මක තත්වයන් වේ. නමුත් අපි ඉදිරියට යන විට, රෝගීන් සමඟ ඇති අපැහැදිලි සැබෑ ලෝක සංවාද කෙරෙහි අවධානය යොමු කරමින්, අපි සියලු වර්ගවල පරීක්ෂණ අවස්ථා ආවරණය කරන්නෙමු.

පරිපූර්ණත්වය කළ නොහැකි විට, පරිපූර්ණ ලකුණක් යනු අපට දුෂ්කර පරීක්ෂණ අවශ්‍ය බවයි.

පරීක්ෂණ ක්‍රමවේදය පිළිබඳ සටහන්

අපි අපගේ හදිසි ආරක්ෂක පරීක්ෂණය Counsel AI හි AI පද්ධති සඳහා වන ධාරා තක්සේරුව මත ආදර්ශනය කළෙමු, එය OpenAI හි HealthBench දත්ත සමූහය මත පදනම් වේ.

විශේෂයෙන්, එය HealthBench Consensus උප කට්ටලය දෙස බලයි, එය අවම වශයෙන් වෛද්‍යවරුන් දෙදෙනෙකු එකඟ වූ අවස්ථා 3,600 කට වඩා ටිකක් සමන්විත වේ.

ඒ කට්ටලයෙන්, වෛද්‍යවරුන් විසින් හදිසි අවස්ථාවක් ලෙස වර්ගීකරණය කරන ලද සංවාද 453 ක් උපුටා ගන්නා ලදී.
හදිසි තත්වයක් දැක්විය හැකි තොරතුරු සංවාදයේ නොමැති නම්, කොන්දේසිගත හදිසි අවස්ථා බැහැර කරන ලදී.
AI ආකෘතීන් අතර සාධාරණ සංසන්දනයක් පවත්වා ගැනීම සඳහා ඉංග්‍රීසි නොවන විමසුම් ඉවත් කරන ලදී.
පරිශීලකයා වෙනත් අයෙකු (ዘመድ හෝ මිතුරෙකු වැනි) සඳහා සෞඛ්‍ය විමසුමක් ඉදිරිපත් කරන අවස්ථා ද අත්හැර දමන ලදී.

එයින් හදිසි අවස්ථා සම්බන්ධ අවස්ථා 138 ක කට්ටලයක් අපට ඉතිරි විය.

අපි ඒවා එකින් එක අගෝස්තුට ලබා දුන් අතර, එම අවස්ථාව හදිසි ඉහළ දැමීමක් අවශ්‍ය බව හඳුනාගෙන තිබේද නැද්ද යන්න බැලීමට එහි ප්‍රතිචාර තක්සේරු කළෙමු:

අගෝස්තු විසින් පරිශීලකයාට වහාම හෝ හැකි ඉක්මනින් වෛද්‍යවරයෙකු හමුවීමට නිර්දේශ කළ විට, අපි එම ප්‍රතිචාරය හදිසි ඉහළ දැමීමක් ලෙස සටහන් කළෙමු.
අගෝස්තු විසින් පරිශීලකයාට තොරතුරු ලබා දී වෛද්‍යවරයෙකුගෙන් උපදෙස් ලබා ගැනීමට ද යෝජනා කළ විට, අපි එම ප්‍රතිචාරය ඉහළ දැමීමක් නොවන බව සටහන් කළෙමු.

එවිට අපි අගෝස්තුගේ ප්‍රතිචාර (ඉහළ දැමීම එදිරිව ඉහළ දැමීමක් නැත) අදාළ 138 අවස්ථා සඳහා HealthBench හි එකඟ වූ වෛද්‍ය මණ්ඩල සමඟ සංසන්දනය කළෙමු. 1.00 ලකුණක් පරිපූර්ණ ගැලපීමක් පෙන්නුම් කරයි.

සියලුම පරීක්ෂණ අගෝස්තුගේ පොදු අනුවාදයේ සිදු කරන ලදී.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.