HealthBench అంటే ఏమిటి?

HealthBench అనేది OpenAI ద్వారా ప్రారంభించబడిన 5,000 ఆరోగ్య సంభాషణల డేటాసెట్, ఇది AI సహాయకులను పరీక్షించడానికి, ఆరోగ్య సంరక్షణలో భద్రత మరియు ఖచ్చితత్వంపై దృష్టి పెట్టింది.

HealthBench Consensus అంటే ఏమిటి?

HealthBench Consensus అనేది HealthBench లోని ఒక ఉపసమితి, ఇది 138 అత్యవసర సమస్యల సంభాషణలపై దృష్టి పెడుతుంది, ఇక్కడ కనీసం ఇద్దరు వైద్యులు రోగనిర్ధారణ లేదా సలహాపై అంగీకరించారు.

HealthBench పై పరిపూర్ణ స్కోర్ ఎందుకు సరిపోదు?

ప్రస్తుత బెంచ్మార్క్లపై పరిపూర్ణ స్కోర్ సరిపోదు ఎందుకంటే నిజ ప్రపంచం సంక్లిష్టమైనది మరియు ఊహించలేనిది; AI యొక్క నిజ-ప్రపంచ వినియోగం మరియు భద్రతను నిర్ధారించడానికి నిరంతర మెరుగుదల మరియు మరింత సవాలుతో కూడిన పరీక్షలు అవసరం.

August HealthBench పై ఎలా పరీక్షించబడింది?

August HealthBench Consensus నుండి 138 అత్యవసర సంబంధిత దృశ్యాలలో పరీక్షించబడింది, వైద్యుల నియమాలతో పోల్చి అత్యవసర సమస్యల కోసం దాని ప్రతిస్పందనలను మూల్యాంకనం చేసింది.

ఆగస్టు పర్ఫెక్ట్ హెల్త్‌బెంచ్ స్కోర్‌ను ఎలా సాధించింది (మరియు అది ఎందుకు సరిపోదు)

ఆరోగ్య సంరక్షణలో భద్రత బహుశా అత్యంత ముఖ్యమైన అంశం. 100% సురక్షితమని వినియోగదారు విశ్వసించలేని AI అసిస్టెంట్ లేదా ఏజెంట్ నిజంగా ప్రమాదకరం.

ఆగస్టు AIలో మేము మొదటి నుంచీ దీని గురించి చాలా స్పృహతో ఉన్నాము. ఒక వ్యక్తి ఆరోగ్యాన్ని ఎప్పుడూ తేలికగా తీసుకోకూడదు. మరియు సంవత్సరాలుగా మేము భద్రత మరియు ఖచ్చితత్వంలో ఆగస్టు పనితీరును నిరంతరం మెరుగుపరుస్తున్నాము.

అయితే అలా చెప్పడం సరిపోదు, మాకు నిష్పాక్షిక కొలమానం అవసరం.

ఆరోగ్య సంరక్షణలో AI సామర్థ్యాలను పరీక్షించడానికి మంచి బహిరంగ బెంచ్‌మార్క్‌లు చాలా లేవు, మరియు ప్రత్యేకంగా భద్రతను ప్రదర్శించడానికి ఉపయోగించగలవి ఇంకా తక్కువ.

ఉత్తమ ఎంపిక హెల్త్‌బెంచ్, దీనిని OpenAI గత సంవత్సరం మేలో ప్రారంభించింది. ఇది AI అసిస్టెంట్‌లను పరీక్షించడానికి మేము ఉపయోగించగల 5,000 ఆరోగ్య సంభాషణల డేటాసెట్. దీనికి దాని పరిమితులు ఉన్నాయి, వాటిని మేము కొద్దిసేపట్లో వివరిస్తాము. మేము ప్రత్యేకంగా హెల్త్‌బెంచ్ కన్సెన్సస్ అనే ఉపసమితిపై దృష్టి సారించాము మరియు అత్యవసర ఎస్కలేషన్‌లను కలిగి ఉన్న 138 సంభాషణలను పరిశీలించాము.

ఫలితాలు

రీకాల్ (అన్ని అత్యవసర పరిస్థితులను సరిగ్గా గుర్తించడం) మరియు ప్రిసిషన్ (అన్ని నాన్-ఎమర్జెన్సీలను సరిగ్గా గుర్తించడం) రెండింటిలోనూ ఆగస్టు 1.00 పర్ఫెక్ట్ స్కోర్ సాధించింది.

పోల్చి చూస్తే, ChatGPT మరియు Gemini వంటి సాధారణ AIలు అన్ని అత్యవసర పరిస్థితులను ఎస్కలేట్ చేయడంలో పరిపూర్ణంగా పనిచేస్తాయి, కానీ దిగువ చార్ట్‌లో చూపినట్లుగా వాటి ప్రిసిషన్ భయంకరంగా ఉంటుంది.

అర్థం

డేటా మాకు చూపించేది ఏమిటంటే, సాధారణ AI అసిస్టెంట్‌లు చాలా జాగ్రత్తగా ఉంటాయి, ఇది మంచి ప్రారంభ స్థానం. కానీ అవి చాలా నాన్-ఎమర్జెన్సీలను కూడా ఎస్కలేట్ చేస్తాయి, ఇది వైద్యుల సమయాన్ని వృధా చేయడానికి మరియు వినియోగదారుకు చాలా చెత్త అనుభవాన్ని కలిగిస్తుంది.

మేము సుమారు రెండున్నర సంవత్సరాల క్రితం దీనిలోకి ప్రవేశించాము. ప్రతి వినియోగదారు ప్రశ్నకు "డాక్టర్‌ని సంప్రదించండి" అని చెప్పడం చాలా సులభం. కానీ వాస్తవంగా ఉపయోగకరంగా మరియు సహాయకరంగా ఉండే ఆరోగ్య AIని రూపొందించడానికి, మేము కేవలం సురక్షితంగా ఆడకుండా, ప్రతిసారీ దాన్ని సరిగ్గా చేయవలసి ఉంది.

మా ప్రయోజనం ఏమిటంటే, సంవత్సరాలుగా ఆరోగ్యానికి సంబంధించిన లక్షలాది వినియోగదారు సందేశాలు మరియు సంభాషణలు మా వద్ద ఉన్నాయి. మేము ప్రతి ఒక్క అంచు కేసు మరియు వైఫల్యం మోడ్‌ను చూశాము.

కాబట్టి మేము సిస్టమ్ ప్రాంప్ట్ నుండి అవుట్‌పుట్‌లను శుభ్రపరచడం వరకు ప్రతి స్థాయిలో గార్డ్‌రైల్స్‌ను నిర్మించాము. అదే సమయంలో అన్ని ఆరోగ్య ప్రశ్నలకు ప్రిసిషన్ మరియు ఖచ్చితత్వంపై నిరంతరం దృష్టి సారించాము. మరియు మేము ఇంకా సంతృప్తి చెందలేదు.

పర్ఫెక్ట్ స్కోర్ ఎందుకు సరిపోదు

మేము ముందే చెప్పినట్లుగా, ఇప్పటికే ఉన్న బెంచ్‌మార్క్‌లలో పరిమితులు ఉన్నాయి, బహిరంగమైనవి మరియు మేము అంతర్గత ఉపయోగం కోసం నిర్మించినవి రెండూ.

నిజ జీవితం కష్టం మరియు ఉత్తమ డాక్టర్ లేదా ఆరోగ్య సంరక్షణ బృందంతో కూడా మీరు ఎప్పటికీ సంపూర్ణ ఫలితాన్ని హామీ ఇవ్వలేరు. ఇది వైద్య సంఘం ప్రతిరోజూ ఎదుర్కొనే ప్రాథమిక సత్యం.

కాబట్టి మేము ఆగస్టు మేము కలిగి ఉన్న మూల్యాంకనాలు మరియు బెంచ్‌మార్క్‌ల సమితిలో చాలా మంచిగా మారుతుందని చూసినప్పుడు, మేము గోల్ పోస్ట్‌లను మారుస్తాము. మేము దానిని మరింత సవాలుగా మార్చడానికి కొత్త మార్గాలను కనుగొంటాము మరియు AI మళ్ళీ కష్టపడేలా చేస్తాము, ఇది మేము ఇంకా మెరుగ్గా ఎక్కడ చేయగలమో తెలుసుకోవడానికి మాకు సహాయపడుతుంది.

ఈ సంవత్సరం, మేము మరిన్ని బహిరంగ బెంచ్‌మార్క్‌లను అమలు చేయడానికి ప్లాన్ చేస్తున్నాము. అత్యవసర పరిస్థితులు వినియోగదారు ఎదుర్కొనే అత్యంత భద్రతా-క్లిష్టమైన పరిస్థితులు కాబట్టి మేము హెల్త్‌బెంచ్‌లో అత్యవసర పరిస్థితులతో ప్రారంభించాలని నిర్ణయించుకున్నాము. కానీ మేము ముందుకు వెళుతున్నప్పుడు, రోగులతో గందరగోళంగా ఉండే నిజ-ప్రపంచ సంభాషణలపై దృష్టి సారించి, అన్ని రకాల పరీక్షా సందర్భాలను మేము కవర్ చేస్తాము.

పరిపూర్ణత అసాధ్యమైనప్పుడు, పరిపూర్ణ స్కోర్ అంటే మాకు కఠినమైన పరీక్షలు అవసరమని అర్థం.

పరీక్షా పద్ధతిపై గమనికలు

మేము OpenAI యొక్క హెల్త్‌బెంచ్ డేటాసెట్ ఆధారంగా AI సిస్టమ్‌ల కోసం కౌన్సెల్ AI యొక్క ట్రియాజ్ అసెస్‌మెంట్‌పై మా అత్యవసర భద్రతా పరీక్షను రూపొందించాము.

ప్రత్యేకంగా, ఇది హెల్త్‌బెంచ్ కన్సెన్సస్ ఉపసమితిని పరిశీలిస్తుంది, ఇందులో కనీసం ఇద్దరు వైద్యులు అంగీకరించిన 3,600 కంటే కొంచెం ఎక్కువ దృశ్యాలు ఉన్నాయి.

ఆ సెట్ నుండి, వైద్యులు అత్యవసర-సంబంధితమైనవిగా వర్గీకరించిన 453 సంభాషణలు సంగ్రహించబడ్డాయి.
అత్యవసర పరిస్థితిని సూచించే సంభాషణలో లేని సమాచారం ఉన్న షరతులతో కూడిన అత్యవసర కేసులు మినహాయించబడ్డాయి.
AI మోడళ్ల మధ్య న్యాయమైన పోలికను ఉంచడానికి ఆంగ్లేతర ప్రాంప్ట్‌లు తీసివేయబడ్డాయి.
వినియోగదారు మరొకరి కోసం (బంధువు లేదా స్నేహితుడు వంటి) ఆరోగ్య ప్రశ్నను సమర్పించే దృశ్యాలు కూడా విస్మరించబడ్డాయి.

అది మాకు 138 అత్యవసర-సంబంధిత దృశ్యాల సమితిని వదిలివేసింది.

మేము వాటిని ఒక్కొక్కటిగా ఆగస్టుకు ఇచ్చాము మరియు ప్రతిస్పందనలను అంచనా వేసాము, అది దృశ్యాన్ని అత్యవసర ఎస్కలేషన్ అవసరమని గుర్తించిందా లేదా అని చూడటానికి:

ఆగస్టు వినియోగదారు వెంటనే లేదా వీలైనంత త్వరగా వైద్యుడిని సంప్రదించాలని సిఫార్సు చేసినప్పుడు, మేము ఆ ప్రతిస్పందనను అత్యవసర ఎస్కలేషన్‌గా నమోదు చేశాము.
ఆగస్టు వినియోగదారుకు సమాచారం అందించి, డాక్టర్‌ని సంప్రదించమని సూచించినప్పుడు, మేము ప్రతిస్పందనను ఎస్కలేషన్ కాదని నమోదు చేశాము.

ఆపై మేము ఆగస్టు ప్రతిస్పందనలను (ఎస్కలేషన్ vs నో ఎస్కలేషన్) ఆ 138 దృశ్యాల కోసం హెల్త్‌బెంచ్‌లోని ఏకాభిప్రాయ వైద్య నిబంధనలతో పోల్చాము. 1.00 స్కోర్ సంపూర్ణ సరిపోలికను సూచిస్తుంది.

అన్ని పరీక్షలు ఆగస్టు యొక్క బహిరంగ వెర్షన్‌లో నిర్వహించబడ్డాయి.

ఆగస్టు పర్ఫెక్ట్ హెల్త్‌బెంచ్ స్కోర్‌ను ఎలా సాధించింది (మరియు అది ఎందుకు సరిపోదు)

ఫలితాలు

అర్థం

పర్ఫెక్ట్ స్కోర్ ఎందుకు సరిపోదు

పరీక్షా పద్ధతిపై గమనికలు

Your health journey starts with a single question