Што е HealthBench?

HealthBench е сет на податоци од 5.000 здравствени разговори, лансиран од OpenAI за тестирање на вештачката интелигенција асистенти, со фокус на безбедност и точност во здравствената заштита.

Што е HealthBench Consensus?

HealthBench Consensus е подмножество од HealthBench кое се фокусира на 138 разговори кои вклучуваа итни ескалации, каде што најмалку двајца лекари се согласија за дијагнозата или советите.

Зошто совршен резултат на HealthBench не е доволен?

Совршен резултат на постоечките бенчмаркови не е доволен бидејќи реалниот свет е сложен и непредвидлив; потребни се континуирано подобрување и потешки тестови за да се обезбеди употребливост и безбедност на вештачката интелигенција во реалниот свет.

Како беше тестиран Август на HealthBench?

Август беше тестиран на 138 сценарија поврзани со итни случаи од HealthBench Consensus, оценувајќи ги неговите одговори за итни ескалации во споредба со лекарски рубрики.

Како Август постигна совршен резултат на HealthBench (и зошто тоа не е доволно)

Безбедноста е веројатно најважниот фактор во здравствената заштита. АИ асистент или агент на кој корисникот не може да му верува дека е 100% безбеден е навистина опасен.

Тоа е нешто за што бевме многу свесни од самиот почеток во August AI. Здравјето на човекот никогаш не треба да се сфаќа лесно. И низ годините постојано ја подобрувавме работата на Август на полето на безбедноста и точноста.

Но, кажувањето не е доволно, ни треба објективно мерење.

Нема многу добри јавни бенчмаркови за тестирање на АИ способностите во здравствената заштита, а уште помалку кои можат да се користат за специфично демонстрирање на безбедноста.

Најдобрата опција е HealthBench, што OpenAI го лансираше во мај минатата година. Тоа е сет на податоци од 5.000 здравствени разговори против кои можеме да ги тестираме АИ асистентите. Има свои ограничувања, до кои ќе дојдеме за малку. Се фокусиравме конкретно на подмножество наречено HealthBench Consensus, и разгледавме 138 разговори кои вклучуваа итни ескалации.

Резултатите

Август постигна совршен резултат од 1,00 постигнувајќи совршен резултат и на препознавање (правилно идентификувајќи ги сите итни случаи) и на прецизност (правилно идентификувајќи ги сите не-итни случаи).

Во споредба, генерализирани АИ како ChatGPT и Gemini постигнуваат совршени резултати при ескалирање на сите итни случаи, но нивната прецизност е ужасна, како што е прикажано на графиконот подолу.

Слика од статијата

Импликациите

Она што податоците ни го покажуваат е дека општите АИ асистенти се екстремно претпазливи, што е добра почетна точка. Но, тие исто така ескалираат многу не-итни случаи, што доведува до губење време на лекарите и многу полошо искуство за корисникот.

Со ова се соочивме пред околу две и пол години. Многу е лесно да се каже „одете на лекар“ како одговор на секое барање на корисникот. Но, за да изградиме здравствено АИ што е навистина употребливо и корисно, требаше да го направиме правилно секој пат, а не само да играме на сигурно.

Нашата предност е што имаме милиони пораки и разговори од корисници со години кои се специфично за здравјето. Видовме секој поединечен граничен случај и режим на откажување.

Затоа, изградивме заштитни огради на секое ниво, од системскиот промпт до чистење на излезите. Во исто време, немилосрдно се фокусиравме на прецизноста и точноста за сите здравствени барања. И сè уште не сме задоволни.

Зошто совршен резултат не е доволен

Како што споменавме порано, постојат ограничувања на постоечките бенчмаркови, како јавните, така и оние што ги изградивме за внатрешна употреба.

Реалниот свет е тежок и никогаш не можете да гарантирате совршен резултат, дури ни со најдобриот лекар или здравствен тим. Тоа е фундаментална вистина со која се соочува медицинската фела секој ден.

Затоа, кога гледаме дека Август станува навистина добар во сет на евалуации и бенчмаркови што ги имаме, ги поместуваме целите. Наоѓаме нови начини да го направиме попредизвикувачки и АИ да се бори повторно, што ни помага да откриеме каде можеме да бидеме уште подобри.

Во текот на оваа година, планираме да спроведеме повеќе јавни бенчмаркови. Одлучивме да започнеме со итни сценарија во HealthBench, бидејќи тоа се најкритичните ситуации за безбедноста со кои може да се соочи корисникот. Но, како што одиме, ќе покриеме секакви тест случаи, со фокус на нерешени разговори од реалниот свет со пациенти.

Кога совршенството е невозможно, совршен резултат само значи дека ни требаат потешки тестови.

Белешки за методологијата на тестирање

Нашето тестирање на безбедност при итни случаи го моделиравме според тријажната проценка на Counsel AI за АИ системи, која е заснована на HealthBench dataset на OpenAI.

Конкретно, се гледа подмножеството HealthBench Consensus, кое опфаќа малку над 3.600 сценарија каде најмалку двајца лекари биле во согласност.

Од тој сет, беа извлечени 453 разговори категоризирани од лекари како поврзани со итни случаи.
Беа исклучени условни итни случаи, каде информациите што не се во разговорот може да укажуваат на итен случај.
Беа отстранети не-англиски промпти, за да се одржи фер споредба меѓу АИ моделите.
Беа отфрлени сценарија каде корисникот претставува здравствено барање за некој друг (како роднина или пријател).

Ова ни остави сет од 138 сценарија поврзани со итни случаи.

Ги дадовме тие еден по еден на Август и ги проценивме неговите одговори за да видиме дали го идентификувал сценариото како потребно итна ескалација или не:

Таму каде што Август препорача корисникот да се јави на лекар веднаш или што е можно побрзо, го забележавме тој одговор како итна ескалација.
Таму каде што Август му даде на корисникот информации и предложи и консултација со лекар, го забележавме одговорот како не ескалација.

Потоа ги споредивме одговорите на Август (ескалација наспроти нема ескалација) со консензус лекарските прописи во HealthBench за тие 138 сценарија. Резултат од 1,00 укажува на совршено совпаѓање.

Целото тестирање беше спроведено на јавната верзија на Август.

Како Август постигна совршен резултат на HealthBench (и зошто тоа не е доволно)

Резултатите

Импликациите

Зошто совршен резултат не е доволен

Белешки за методологијата на тестирање

Your health journey starts with a single question