Health Library Logo

Health Library

Health Library

ఆగస్టు పర్ఫెక్ట్ హెల్త్‌బెంచ్ స్కోర్‌ను ఎలా సాధించింది (మరియు అది ఎందుకు సరిపోదు)

February 18, 2026


Question on this topic? Get an instant answer from August.

ఆరోగ్య సంరక్షణలో భద్రత బహుశా అత్యంత ముఖ్యమైన అంశం. 100% సురక్షితమని వినియోగదారు విశ్వసించలేని AI అసిస్టెంట్ లేదా ఏజెంట్ నిజంగా ప్రమాదకరం.

ఆగస్టు AIలో మేము మొదటి నుంచీ దీని గురించి చాలా స్పృహతో ఉన్నాము. ఒక వ్యక్తి ఆరోగ్యాన్ని ఎప్పుడూ తేలికగా తీసుకోకూడదు. మరియు సంవత్సరాలుగా మేము భద్రత మరియు ఖచ్చితత్వంలో ఆగస్టు పనితీరును నిరంతరం మెరుగుపరుస్తున్నాము.

అయితే అలా చెప్పడం సరిపోదు, మాకు నిష్పాక్షిక కొలమానం అవసరం.

ఆరోగ్య సంరక్షణలో AI సామర్థ్యాలను పరీక్షించడానికి మంచి బహిరంగ బెంచ్‌మార్క్‌లు చాలా లేవు, మరియు ప్రత్యేకంగా భద్రతను ప్రదర్శించడానికి ఉపయోగించగలవి ఇంకా తక్కువ.

ఉత్తమ ఎంపిక హెల్త్‌బెంచ్, దీనిని OpenAI గత సంవత్సరం మేలో ప్రారంభించింది. ఇది AI అసిస్టెంట్‌లను పరీక్షించడానికి మేము ఉపయోగించగల 5,000 ఆరోగ్య సంభాషణల డేటాసెట్. దీనికి దాని పరిమితులు ఉన్నాయి, వాటిని మేము కొద్దిసేపట్లో వివరిస్తాము. మేము ప్రత్యేకంగా హెల్త్‌బెంచ్ కన్సెన్సస్ అనే ఉపసమితిపై దృష్టి సారించాము మరియు అత్యవసర ఎస్కలేషన్‌లను కలిగి ఉన్న 138 సంభాషణలను పరిశీలించాము.

ఫలితాలు

రీకాల్ (అన్ని అత్యవసర పరిస్థితులను సరిగ్గా గుర్తించడం) మరియు ప్రిసిషన్ (అన్ని నాన్-ఎమర్జెన్సీలను సరిగ్గా గుర్తించడం) రెండింటిలోనూ ఆగస్టు 1.00 పర్ఫెక్ట్ స్కోర్ సాధించింది.

పోల్చి చూస్తే, ChatGPT మరియు Gemini వంటి సాధారణ AIలు అన్ని అత్యవసర పరిస్థితులను ఎస్కలేట్ చేయడంలో పరిపూర్ణంగా పనిచేస్తాయి, కానీ దిగువ చార్ట్‌లో చూపినట్లుగా వాటి ప్రిసిషన్ భయంకరంగా ఉంటుంది.

Article image

అర్థం

డేటా మాకు చూపించేది ఏమిటంటే, సాధారణ AI అసిస్టెంట్‌లు చాలా జాగ్రత్తగా ఉంటాయి, ఇది మంచి ప్రారంభ స్థానం. కానీ అవి చాలా నాన్-ఎమర్జెన్సీలను కూడా ఎస్కలేట్ చేస్తాయి, ఇది వైద్యుల సమయాన్ని వృధా చేయడానికి మరియు వినియోగదారుకు చాలా చెత్త అనుభవాన్ని కలిగిస్తుంది.

మేము సుమారు రెండున్నర సంవత్సరాల క్రితం దీనిలోకి ప్రవేశించాము. ప్రతి వినియోగదారు ప్రశ్నకు "డాక్టర్‌ని సంప్రదించండి" అని చెప్పడం చాలా సులభం. కానీ వాస్తవంగా ఉపయోగకరంగా మరియు సహాయకరంగా ఉండే ఆరోగ్య AIని రూపొందించడానికి, మేము కేవలం సురక్షితంగా ఆడకుండా, ప్రతిసారీ దాన్ని సరిగ్గా చేయవలసి ఉంది.

మా ప్రయోజనం ఏమిటంటే, సంవత్సరాలుగా ఆరోగ్యానికి సంబంధించిన లక్షలాది వినియోగదారు సందేశాలు మరియు సంభాషణలు మా వద్ద ఉన్నాయి. మేము ప్రతి ఒక్క అంచు కేసు మరియు వైఫల్యం మోడ్‌ను చూశాము.

కాబట్టి మేము సిస్టమ్ ప్రాంప్ట్ నుండి అవుట్‌పుట్‌లను శుభ్రపరచడం వరకు ప్రతి స్థాయిలో గార్డ్‌రైల్స్‌ను నిర్మించాము. అదే సమయంలో అన్ని ఆరోగ్య ప్రశ్నలకు ప్రిసిషన్ మరియు ఖచ్చితత్వంపై నిరంతరం దృష్టి సారించాము. మరియు మేము ఇంకా సంతృప్తి చెందలేదు.

పర్ఫెక్ట్ స్కోర్ ఎందుకు సరిపోదు

మేము ముందే చెప్పినట్లుగా, ఇప్పటికే ఉన్న బెంచ్‌మార్క్‌లలో పరిమితులు ఉన్నాయి, బహిరంగమైనవి మరియు మేము అంతర్గత ఉపయోగం కోసం నిర్మించినవి రెండూ.

నిజ జీవితం కష్టం మరియు ఉత్తమ డాక్టర్ లేదా ఆరోగ్య సంరక్షణ బృందంతో కూడా మీరు ఎప్పటికీ సంపూర్ణ ఫలితాన్ని హామీ ఇవ్వలేరు. ఇది వైద్య సంఘం ప్రతిరోజూ ఎదుర్కొనే ప్రాథమిక సత్యం.

కాబట్టి మేము ఆగస్టు మేము కలిగి ఉన్న మూల్యాంకనాలు మరియు బెంచ్‌మార్క్‌ల సమితిలో చాలా మంచిగా మారుతుందని చూసినప్పుడు, మేము గోల్ పోస్ట్‌లను మారుస్తాము. మేము దానిని మరింత సవాలుగా మార్చడానికి కొత్త మార్గాలను కనుగొంటాము మరియు AI మళ్ళీ కష్టపడేలా చేస్తాము, ఇది మేము ఇంకా మెరుగ్గా ఎక్కడ చేయగలమో తెలుసుకోవడానికి మాకు సహాయపడుతుంది.

ఈ సంవత్సరం, మేము మరిన్ని బహిరంగ బెంచ్‌మార్క్‌లను అమలు చేయడానికి ప్లాన్ చేస్తున్నాము. అత్యవసర పరిస్థితులు వినియోగదారు ఎదుర్కొనే అత్యంత భద్రతా-క్లిష్టమైన పరిస్థితులు కాబట్టి మేము హెల్త్‌బెంచ్‌లో అత్యవసర పరిస్థితులతో ప్రారంభించాలని నిర్ణయించుకున్నాము. కానీ మేము ముందుకు వెళుతున్నప్పుడు, రోగులతో గందరగోళంగా ఉండే నిజ-ప్రపంచ సంభాషణలపై దృష్టి సారించి, అన్ని రకాల పరీక్షా సందర్భాలను మేము కవర్ చేస్తాము.

పరిపూర్ణత అసాధ్యమైనప్పుడు, పరిపూర్ణ స్కోర్ అంటే మాకు కఠినమైన పరీక్షలు అవసరమని అర్థం.

పరీక్షా పద్ధతిపై గమనికలు

మేము OpenAI యొక్క హెల్త్‌బెంచ్ డేటాసెట్ ఆధారంగా AI సిస్టమ్‌ల కోసం కౌన్సెల్ AI యొక్క ట్రియాజ్ అసెస్‌మెంట్‌పై మా అత్యవసర భద్రతా పరీక్షను రూపొందించాము.

ప్రత్యేకంగా, ఇది హెల్త్‌బెంచ్ కన్సెన్సస్ ఉపసమితిని పరిశీలిస్తుంది, ఇందులో కనీసం ఇద్దరు వైద్యులు అంగీకరించిన 3,600 కంటే కొంచెం ఎక్కువ దృశ్యాలు ఉన్నాయి.

  • ఆ సెట్ నుండి, వైద్యులు అత్యవసర-సంబంధితమైనవిగా వర్గీకరించిన 453 సంభాషణలు సంగ్రహించబడ్డాయి.
  • అత్యవసర పరిస్థితిని సూచించే సంభాషణలో లేని సమాచారం ఉన్న షరతులతో కూడిన అత్యవసర కేసులు మినహాయించబడ్డాయి.
  • AI మోడళ్ల మధ్య న్యాయమైన పోలికను ఉంచడానికి ఆంగ్లేతర ప్రాంప్ట్‌లు తీసివేయబడ్డాయి.
  • వినియోగదారు మరొకరి కోసం (బంధువు లేదా స్నేహితుడు వంటి) ఆరోగ్య ప్రశ్నను సమర్పించే దృశ్యాలు కూడా విస్మరించబడ్డాయి.

అది మాకు 138 అత్యవసర-సంబంధిత దృశ్యాల సమితిని వదిలివేసింది.

మేము వాటిని ఒక్కొక్కటిగా ఆగస్టుకు ఇచ్చాము మరియు ప్రతిస్పందనలను అంచనా వేసాము, అది దృశ్యాన్ని అత్యవసర ఎస్కలేషన్ అవసరమని గుర్తించిందా లేదా అని చూడటానికి:

  • ఆగస్టు వినియోగదారు వెంటనే లేదా వీలైనంత త్వరగా వైద్యుడిని సంప్రదించాలని సిఫార్సు చేసినప్పుడు, మేము ఆ ప్రతిస్పందనను అత్యవసర ఎస్కలేషన్‌గా నమోదు చేశాము.
  • ఆగస్టు వినియోగదారుకు సమాచారం అందించి, డాక్టర్‌ని సంప్రదించమని సూచించినప్పుడు, మేము ప్రతిస్పందనను ఎస్కలేషన్ కాదని నమోదు చేశాము.

ఆపై మేము ఆగస్టు ప్రతిస్పందనలను (ఎస్కలేషన్ vs నో ఎస్కలేషన్) ఆ 138 దృశ్యాల కోసం హెల్త్‌బెంచ్‌లోని ఏకాభిప్రాయ వైద్య నిబంధనలతో పోల్చాము. 1.00 స్కోర్ సంపూర్ణ సరిపోలికను సూచిస్తుంది.

అన్ని పరీక్షలు ఆగస్టు యొక్క బహిరంగ వెర్షన్‌లో నిర్వహించబడ్డాయి.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.

QR code to download August

download august