Health Library

ఆగస్టు పర్ఫెక్ట్ హెల్త్‌బెంచ్ స్కోర్‌ను ఎలా సాధించింది (మరియు అది ఎందుకు సరిపోదు)

February 18, 2026


Question on this topic? Get an instant answer from August.

ఆరోగ్య సంరక్షణలో భద్రత బహుశా అత్యంత ముఖ్యమైన అంశం. 100% సురక్షితమని వినియోగదారు విశ్వసించలేని AI అసిస్టెంట్ లేదా ఏజెంట్ నిజంగా ప్రమాదకరం.

ఆగస్టు AIలో మేము మొదటి నుంచీ దీని గురించి చాలా స్పృహతో ఉన్నాము. ఒక వ్యక్తి ఆరోగ్యాన్ని ఎప్పుడూ తేలికగా తీసుకోకూడదు. మరియు సంవత్సరాలుగా మేము భద్రత మరియు ఖచ్చితత్వంలో ఆగస్టు పనితీరును నిరంతరం మెరుగుపరుస్తున్నాము.

అయితే అలా చెప్పడం సరిపోదు, మాకు నిష్పాక్షిక కొలమానం అవసరం.

ఆరోగ్య సంరక్షణలో AI సామర్థ్యాలను పరీక్షించడానికి మంచి బహిరంగ బెంచ్‌మార్క్‌లు చాలా లేవు, మరియు ప్రత్యేకంగా భద్రతను ప్రదర్శించడానికి ఉపయోగించగలవి ఇంకా తక్కువ.

ఉత్తమ ఎంపిక హెల్త్‌బెంచ్, దీనిని OpenAI గత సంవత్సరం మేలో ప్రారంభించింది. ఇది AI అసిస్టెంట్‌లను పరీక్షించడానికి మేము ఉపయోగించగల 5,000 ఆరోగ్య సంభాషణల డేటాసెట్. దీనికి దాని పరిమితులు ఉన్నాయి, వాటిని మేము కొద్దిసేపట్లో వివరిస్తాము. మేము ప్రత్యేకంగా హెల్త్‌బెంచ్ కన్సెన్సస్ అనే ఉపసమితిపై దృష్టి సారించాము మరియు అత్యవసర ఎస్కలేషన్‌లను కలిగి ఉన్న 138 సంభాషణలను పరిశీలించాము.

ఫలితాలు

రీకాల్ (అన్ని అత్యవసర పరిస్థితులను సరిగ్గా గుర్తించడం) మరియు ప్రిసిషన్ (అన్ని నాన్-ఎమర్జెన్సీలను సరిగ్గా గుర్తించడం) రెండింటిలోనూ ఆగస్టు 1.00 పర్ఫెక్ట్ స్కోర్ సాధించింది.

పోల్చి చూస్తే, ChatGPT మరియు Gemini వంటి సాధారణ AIలు అన్ని అత్యవసర పరిస్థితులను ఎస్కలేట్ చేయడంలో పరిపూర్ణంగా పనిచేస్తాయి, కానీ దిగువ చార్ట్‌లో చూపినట్లుగా వాటి ప్రిసిషన్ భయంకరంగా ఉంటుంది.

Article image

అర్థం

డేటా మాకు చూపించేది ఏమిటంటే, సాధారణ AI అసిస్టెంట్‌లు చాలా జాగ్రత్తగా ఉంటాయి, ఇది మంచి ప్రారంభ స్థానం. కానీ అవి చాలా నాన్-ఎమర్జెన్సీలను కూడా ఎస్కలేట్ చేస్తాయి, ఇది వైద్యుల సమయాన్ని వృధా చేయడానికి మరియు వినియోగదారుకు చాలా చెత్త అనుభవాన్ని కలిగిస్తుంది.

మేము సుమారు రెండున్నర సంవత్సరాల క్రితం దీనిలోకి ప్రవేశించాము. ప్రతి వినియోగదారు ప్రశ్నకు "డాక్టర్‌ని సంప్రదించండి" అని చెప్పడం చాలా సులభం. కానీ వాస్తవంగా ఉపయోగకరంగా మరియు సహాయకరంగా ఉండే ఆరోగ్య AIని రూపొందించడానికి, మేము కేవలం సురక్షితంగా ఆడకుండా, ప్రతిసారీ దాన్ని సరిగ్గా చేయవలసి ఉంది.

మా ప్రయోజనం ఏమిటంటే, సంవత్సరాలుగా ఆరోగ్యానికి సంబంధించిన లక్షలాది వినియోగదారు సందేశాలు మరియు సంభాషణలు మా వద్ద ఉన్నాయి. మేము ప్రతి ఒక్క అంచు కేసు మరియు వైఫల్యం మోడ్‌ను చూశాము.

కాబట్టి మేము సిస్టమ్ ప్రాంప్ట్ నుండి అవుట్‌పుట్‌లను శుభ్రపరచడం వరకు ప్రతి స్థాయిలో గార్డ్‌రైల్స్‌ను నిర్మించాము. అదే సమయంలో అన్ని ఆరోగ్య ప్రశ్నలకు ప్రిసిషన్ మరియు ఖచ్చితత్వంపై నిరంతరం దృష్టి సారించాము. మరియు మేము ఇంకా సంతృప్తి చెందలేదు.

పర్ఫెక్ట్ స్కోర్ ఎందుకు సరిపోదు

మేము ముందే చెప్పినట్లుగా, ఇప్పటికే ఉన్న బెంచ్‌మార్క్‌లలో పరిమితులు ఉన్నాయి, బహిరంగమైనవి మరియు మేము అంతర్గత ఉపయోగం కోసం నిర్మించినవి రెండూ.

నిజ జీవితం కష్టం మరియు ఉత్తమ డాక్టర్ లేదా ఆరోగ్య సంరక్షణ బృందంతో కూడా మీరు ఎప్పటికీ సంపూర్ణ ఫలితాన్ని హామీ ఇవ్వలేరు. ఇది వైద్య సంఘం ప్రతిరోజూ ఎదుర్కొనే ప్రాథమిక సత్యం.

కాబట్టి మేము ఆగస్టు మేము కలిగి ఉన్న మూల్యాంకనాలు మరియు బెంచ్‌మార్క్‌ల సమితిలో చాలా మంచిగా మారుతుందని చూసినప్పుడు, మేము గోల్ పోస్ట్‌లను మారుస్తాము. మేము దానిని మరింత సవాలుగా మార్చడానికి కొత్త మార్గాలను కనుగొంటాము మరియు AI మళ్ళీ కష్టపడేలా చేస్తాము, ఇది మేము ఇంకా మెరుగ్గా ఎక్కడ చేయగలమో తెలుసుకోవడానికి మాకు సహాయపడుతుంది.

ఈ సంవత్సరం, మేము మరిన్ని బహిరంగ బెంచ్‌మార్క్‌లను అమలు చేయడానికి ప్లాన్ చేస్తున్నాము. అత్యవసర పరిస్థితులు వినియోగదారు ఎదుర్కొనే అత్యంత భద్రతా-క్లిష్టమైన పరిస్థితులు కాబట్టి మేము హెల్త్‌బెంచ్‌లో అత్యవసర పరిస్థితులతో ప్రారంభించాలని నిర్ణయించుకున్నాము. కానీ మేము ముందుకు వెళుతున్నప్పుడు, రోగులతో గందరగోళంగా ఉండే నిజ-ప్రపంచ సంభాషణలపై దృష్టి సారించి, అన్ని రకాల పరీక్షా సందర్భాలను మేము కవర్ చేస్తాము.

పరిపూర్ణత అసాధ్యమైనప్పుడు, పరిపూర్ణ స్కోర్ అంటే మాకు కఠినమైన పరీక్షలు అవసరమని అర్థం.

పరీక్షా పద్ధతిపై గమనికలు

మేము OpenAI యొక్క హెల్త్‌బెంచ్ డేటాసెట్ ఆధారంగా AI సిస్టమ్‌ల కోసం కౌన్సెల్ AI యొక్క ట్రియాజ్ అసెస్‌మెంట్‌పై మా అత్యవసర భద్రతా పరీక్షను రూపొందించాము.

ప్రత్యేకంగా, ఇది హెల్త్‌బెంచ్ కన్సెన్సస్ ఉపసమితిని పరిశీలిస్తుంది, ఇందులో కనీసం ఇద్దరు వైద్యులు అంగీకరించిన 3,600 కంటే కొంచెం ఎక్కువ దృశ్యాలు ఉన్నాయి.

  • ఆ సెట్ నుండి, వైద్యులు అత్యవసర-సంబంధితమైనవిగా వర్గీకరించిన 453 సంభాషణలు సంగ్రహించబడ్డాయి.
  • అత్యవసర పరిస్థితిని సూచించే సంభాషణలో లేని సమాచారం ఉన్న షరతులతో కూడిన అత్యవసర కేసులు మినహాయించబడ్డాయి.
  • AI మోడళ్ల మధ్య న్యాయమైన పోలికను ఉంచడానికి ఆంగ్లేతర ప్రాంప్ట్‌లు తీసివేయబడ్డాయి.
  • వినియోగదారు మరొకరి కోసం (బంధువు లేదా స్నేహితుడు వంటి) ఆరోగ్య ప్రశ్నను సమర్పించే దృశ్యాలు కూడా విస్మరించబడ్డాయి.

అది మాకు 138 అత్యవసర-సంబంధిత దృశ్యాల సమితిని వదిలివేసింది.

మేము వాటిని ఒక్కొక్కటిగా ఆగస్టుకు ఇచ్చాము మరియు ప్రతిస్పందనలను అంచనా వేసాము, అది దృశ్యాన్ని అత్యవసర ఎస్కలేషన్ అవసరమని గుర్తించిందా లేదా అని చూడటానికి:

  • ఆగస్టు వినియోగదారు వెంటనే లేదా వీలైనంత త్వరగా వైద్యుడిని సంప్రదించాలని సిఫార్సు చేసినప్పుడు, మేము ఆ ప్రతిస్పందనను అత్యవసర ఎస్కలేషన్‌గా నమోదు చేశాము.
  • ఆగస్టు వినియోగదారుకు సమాచారం అందించి, డాక్టర్‌ని సంప్రదించమని సూచించినప్పుడు, మేము ప్రతిస్పందనను ఎస్కలేషన్ కాదని నమోదు చేశాము.

ఆపై మేము ఆగస్టు ప్రతిస్పందనలను (ఎస్కలేషన్ vs నో ఎస్కలేషన్) ఆ 138 దృశ్యాల కోసం హెల్త్‌బెంచ్‌లోని ఏకాభిప్రాయ వైద్య నిబంధనలతో పోల్చాము. 1.00 స్కోర్ సంపూర్ణ సరిపోలికను సూచిస్తుంది.

అన్ని పరీక్షలు ఆగస్టు యొక్క బహిరంగ వెర్షన్‌లో నిర్వహించబడ్డాయి.

Medical Disclaimer: This article is for informational purposes only and does not constitute medical advice. Always consult a qualified healthcare provider for diagnosis and treatment decisions. If you are experiencing a medical emergency, call 911 or go to the nearest emergency room immediately.

Health Companion
trusted by 6M people

Get clear medical guidance
on symptoms, medications, and lab reports.

Your health journey starts with a single question

Download August today. No appointments. Just answers you can trust.

Hand reaching for August Health app icon