Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
ఆరోగ్య సంరక్షణలో భద్రత బహుశా అత్యంత ముఖ్యమైన అంశం. 100% సురక్షితమని వినియోగదారు విశ్వసించలేని AI అసిస్టెంట్ లేదా ఏజెంట్ నిజంగా ప్రమాదకరం.
ఆగస్టు AIలో మేము మొదటి నుంచీ దీని గురించి చాలా స్పృహతో ఉన్నాము. ఒక వ్యక్తి ఆరోగ్యాన్ని ఎప్పుడూ తేలికగా తీసుకోకూడదు. మరియు సంవత్సరాలుగా మేము భద్రత మరియు ఖచ్చితత్వంలో ఆగస్టు పనితీరును నిరంతరం మెరుగుపరుస్తున్నాము.
అయితే అలా చెప్పడం సరిపోదు, మాకు నిష్పాక్షిక కొలమానం అవసరం.
ఆరోగ్య సంరక్షణలో AI సామర్థ్యాలను పరీక్షించడానికి మంచి బహిరంగ బెంచ్మార్క్లు చాలా లేవు, మరియు ప్రత్యేకంగా భద్రతను ప్రదర్శించడానికి ఉపయోగించగలవి ఇంకా తక్కువ.
ఉత్తమ ఎంపిక హెల్త్బెంచ్, దీనిని OpenAI గత సంవత్సరం మేలో ప్రారంభించింది. ఇది AI అసిస్టెంట్లను పరీక్షించడానికి మేము ఉపయోగించగల 5,000 ఆరోగ్య సంభాషణల డేటాసెట్. దీనికి దాని పరిమితులు ఉన్నాయి, వాటిని మేము కొద్దిసేపట్లో వివరిస్తాము. మేము ప్రత్యేకంగా హెల్త్బెంచ్ కన్సెన్సస్ అనే ఉపసమితిపై దృష్టి సారించాము మరియు అత్యవసర ఎస్కలేషన్లను కలిగి ఉన్న 138 సంభాషణలను పరిశీలించాము.
రీకాల్ (అన్ని అత్యవసర పరిస్థితులను సరిగ్గా గుర్తించడం) మరియు ప్రిసిషన్ (అన్ని నాన్-ఎమర్జెన్సీలను సరిగ్గా గుర్తించడం) రెండింటిలోనూ ఆగస్టు 1.00 పర్ఫెక్ట్ స్కోర్ సాధించింది.
పోల్చి చూస్తే, ChatGPT మరియు Gemini వంటి సాధారణ AIలు అన్ని అత్యవసర పరిస్థితులను ఎస్కలేట్ చేయడంలో పరిపూర్ణంగా పనిచేస్తాయి, కానీ దిగువ చార్ట్లో చూపినట్లుగా వాటి ప్రిసిషన్ భయంకరంగా ఉంటుంది.

డేటా మాకు చూపించేది ఏమిటంటే, సాధారణ AI అసిస్టెంట్లు చాలా జాగ్రత్తగా ఉంటాయి, ఇది మంచి ప్రారంభ స్థానం. కానీ అవి చాలా నాన్-ఎమర్జెన్సీలను కూడా ఎస్కలేట్ చేస్తాయి, ఇది వైద్యుల సమయాన్ని వృధా చేయడానికి మరియు వినియోగదారుకు చాలా చెత్త అనుభవాన్ని కలిగిస్తుంది.
మేము సుమారు రెండున్నర సంవత్సరాల క్రితం దీనిలోకి ప్రవేశించాము. ప్రతి వినియోగదారు ప్రశ్నకు "డాక్టర్ని సంప్రదించండి" అని చెప్పడం చాలా సులభం. కానీ వాస్తవంగా ఉపయోగకరంగా మరియు సహాయకరంగా ఉండే ఆరోగ్య AIని రూపొందించడానికి, మేము కేవలం సురక్షితంగా ఆడకుండా, ప్రతిసారీ దాన్ని సరిగ్గా చేయవలసి ఉంది.
మా ప్రయోజనం ఏమిటంటే, సంవత్సరాలుగా ఆరోగ్యానికి సంబంధించిన లక్షలాది వినియోగదారు సందేశాలు మరియు సంభాషణలు మా వద్ద ఉన్నాయి. మేము ప్రతి ఒక్క అంచు కేసు మరియు వైఫల్యం మోడ్ను చూశాము.
కాబట్టి మేము సిస్టమ్ ప్రాంప్ట్ నుండి అవుట్పుట్లను శుభ్రపరచడం వరకు ప్రతి స్థాయిలో గార్డ్రైల్స్ను నిర్మించాము. అదే సమయంలో అన్ని ఆరోగ్య ప్రశ్నలకు ప్రిసిషన్ మరియు ఖచ్చితత్వంపై నిరంతరం దృష్టి సారించాము. మరియు మేము ఇంకా సంతృప్తి చెందలేదు.
మేము ముందే చెప్పినట్లుగా, ఇప్పటికే ఉన్న బెంచ్మార్క్లలో పరిమితులు ఉన్నాయి, బహిరంగమైనవి మరియు మేము అంతర్గత ఉపయోగం కోసం నిర్మించినవి రెండూ.
నిజ జీవితం కష్టం మరియు ఉత్తమ డాక్టర్ లేదా ఆరోగ్య సంరక్షణ బృందంతో కూడా మీరు ఎప్పటికీ సంపూర్ణ ఫలితాన్ని హామీ ఇవ్వలేరు. ఇది వైద్య సంఘం ప్రతిరోజూ ఎదుర్కొనే ప్రాథమిక సత్యం.
కాబట్టి మేము ఆగస్టు మేము కలిగి ఉన్న మూల్యాంకనాలు మరియు బెంచ్మార్క్ల సమితిలో చాలా మంచిగా మారుతుందని చూసినప్పుడు, మేము గోల్ పోస్ట్లను మారుస్తాము. మేము దానిని మరింత సవాలుగా మార్చడానికి కొత్త మార్గాలను కనుగొంటాము మరియు AI మళ్ళీ కష్టపడేలా చేస్తాము, ఇది మేము ఇంకా మెరుగ్గా ఎక్కడ చేయగలమో తెలుసుకోవడానికి మాకు సహాయపడుతుంది.
ఈ సంవత్సరం, మేము మరిన్ని బహిరంగ బెంచ్మార్క్లను అమలు చేయడానికి ప్లాన్ చేస్తున్నాము. అత్యవసర పరిస్థితులు వినియోగదారు ఎదుర్కొనే అత్యంత భద్రతా-క్లిష్టమైన పరిస్థితులు కాబట్టి మేము హెల్త్బెంచ్లో అత్యవసర పరిస్థితులతో ప్రారంభించాలని నిర్ణయించుకున్నాము. కానీ మేము ముందుకు వెళుతున్నప్పుడు, రోగులతో గందరగోళంగా ఉండే నిజ-ప్రపంచ సంభాషణలపై దృష్టి సారించి, అన్ని రకాల పరీక్షా సందర్భాలను మేము కవర్ చేస్తాము.
పరిపూర్ణత అసాధ్యమైనప్పుడు, పరిపూర్ణ స్కోర్ అంటే మాకు కఠినమైన పరీక్షలు అవసరమని అర్థం.
మేము OpenAI యొక్క హెల్త్బెంచ్ డేటాసెట్ ఆధారంగా AI సిస్టమ్ల కోసం కౌన్సెల్ AI యొక్క ట్రియాజ్ అసెస్మెంట్పై మా అత్యవసర భద్రతా పరీక్షను రూపొందించాము.
ప్రత్యేకంగా, ఇది హెల్త్బెంచ్ కన్సెన్సస్ ఉపసమితిని పరిశీలిస్తుంది, ఇందులో కనీసం ఇద్దరు వైద్యులు అంగీకరించిన 3,600 కంటే కొంచెం ఎక్కువ దృశ్యాలు ఉన్నాయి.
అది మాకు 138 అత్యవసర-సంబంధిత దృశ్యాల సమితిని వదిలివేసింది.
మేము వాటిని ఒక్కొక్కటిగా ఆగస్టుకు ఇచ్చాము మరియు ప్రతిస్పందనలను అంచనా వేసాము, అది దృశ్యాన్ని అత్యవసర ఎస్కలేషన్ అవసరమని గుర్తించిందా లేదా అని చూడటానికి:
ఆపై మేము ఆగస్టు ప్రతిస్పందనలను (ఎస్కలేషన్ vs నో ఎస్కలేషన్) ఆ 138 దృశ్యాల కోసం హెల్త్బెంచ్లోని ఏకాభిప్రాయ వైద్య నిబంధనలతో పోల్చాము. 1.00 స్కోర్ సంపూర్ణ సరిపోలికను సూచిస్తుంది.
అన్ని పరీక్షలు ఆగస్టు యొక్క బహిరంగ వెర్షన్లో నిర్వహించబడ్డాయి.
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.