Health Library Logo

Health Library

Health Library

August хэрхэн төгс HealthBench оноо авсан (мөн яагаад энэ нь хангалтгүй вэ)

February 18, 2026


Question on this topic? Get an instant answer from August.

Эрүүл мэндийн салбарт аюулгүй байдал нь хамгийн чухал хүчин зүйл байх. Хэрэглэгч 100% аюулгүй байдалд нь итгэж чадахгүй байгаа хиймэл оюунтан буюу төлөөлөгч нь үнэхээр аюултай.

Энэ бол August AI-д бид эхнээс нь маш их анхаарч ирсэн зүйл юм. Хүний эрүүл мэндийг хэзээ ч бүү хайхрамжгүй хандаж болохгүй. Олон жилийн турш бид August-ын аюулгүй байдал, үнэн зөв байдлыг тасралтгүй сайжруулж ирсэн.

Гэхдээ энэ нь хангалтгүй, бидэнд бодит хэмжилт хэрэгтэй.

Эрүүл мэндийн салбарт хиймэл оюун ухааны чадавхийг шалгах зорилгоор олон нийтийн сайн жишиг байдаггүй бөгөөд ялангуяа аюулгүй байдлыг харуулж чадах нь бүр ч ховор.

Хамгийн сайн сонголт бол OpenAI өнгөрсөн оны тавдугаар сард гаргасан HealthBench юм. Энэ нь хиймэл оюунтан туслахуудыг туршиж болох 5000 эрүүл мэндийн харилцааны мэдээллийн багц юм. Энэ нь өөрийн гэсэн хязгаарлалттай, үүний талаар бид удахгүй ярих болно. Бид HealthBench Consensus хэмээх дэд хэсэгт онцгой анхаарлаа хандуулан, яаралтай тусламж шаардсан 138 харилцаанд анхаарлаа хандуулсан.

Үр дүн

August нь бүх яаралтай тусламжийг зөв тодорхойлох (recall) болон бүх яаралтай бус зүйлсийг зөв тодорхойлох (precision) гэсэн хоёуланд нь 1.00 оноо авсан.

Үүнтэй харьцуулахад ChatGPT болон Gemini зэрэг ерөнхий хиймэл оюун ухаанууд бүх яаралтай тусламжийг алдаагүй тусламж болгодог боловч доорх зурагт харуулсныг эсэргүүцэх чадвар нь маш муу байдаг.

Өгүүллийн зураг

Нөлөөлөл

Өгөгдөл нь ерөнхий хиймэл оюунтан туслахууд маш болгоомжтой байдаг бөгөөд энэ нь сайн эхлэл юм. Гэхдээ тэд олон тооны яаралтай бус тохиолдлуудыг мөн тусламж болгодог бөгөөд энэ нь эмч нарын цагийг үр ашиггүй үрэхэд хүргэдэг бөгөөд хэрэглэгчдэд маш муу туршлагыг өгдөг.

Бид үүнтэй ойролцоогоор хоёр жил хагасын өмнө тулгарсан. Хэрэглэгчийн асуулт бүрт "эмчтэй зөвлөлдөх" гэж хэлэх нь маш амархан. Гэхдээ үнэхээр хэрэглэгдэх боломжтой, тустай эрүүл мэндийн хиймэл оюун ухааныг бий болгохын тулд бид зөвхөн аюулгүй байдлыг хангаад зогсохгүй, үүнийг үргэлж зөв хийх хэрэгтэй байсан.

Манай давуу тал нь бид олон жилийн турш эрүүл мэндтэй холбоотой сая сая хэрэглэгчийн мессеж, харилцаанд хандаж байсан явдал юм. Бид тус бүрийн захын тохиолдол, алдааны хэлбэрийг харсан.

Тиймээс бид системийн санал хүсэлтээс эхлээд гаралтыг цэвэрлэх хүртэл бүх түвшинд хамгаалалтыг бий болгосон. Үүнтэй зэрэгцэн эрүүл мэндийн бүх асуулгад зориулж нарийвчлал, үнэн зөв байдалд тасралтгүй анхаарлаа хандуулсан. Мөн бид хангалуун бус байна.

Төгс оноо нь яагаад хангалтгүй вэ

Дээр дурьдсанчлан, одоо байгаа жишгүүд, олон нийтийн болон бидний дотоод хэрэглээнд зориулж бүтээсэн аль алинд нь хязгаарлалт байдаг.

Бодит ертөнц нь хэцүү бөгөөд хамгийн сайн эмч эсвэл эрүүл мэндийн багтай байсан ч төгс үр дүнг баталгаажуулж чадахгүй. Энэ бол анагаах ухааны ертөнц өдөр тутам тулгардаг үндсэн бодит байдал.

Тиймээс бид August нь бидний эзэмшиж буй шалгуур, жишгүүдийн багцад маш сайн болж байгааг харах үед бид зорилгоо өөрчилдөг. Бид үүнийг илүү хэцүү болгох шинэ арга замыг олж, хиймэл оюун ухааныг дахин хүнд байдалд оруулах болно, энэ нь бид хаана илүү сайн байж болохыг олж мэдэхэд тусалдаг.

Энэ жилийн турш бид илүү олон нийтийн жишгийг гаргахаар төлөвлөж байна. Бид HealthBench-д яаралтай тусламжийн нөхцөл байдлаас эхлэн хийхээр шийдсэн, учир нь эдгээр нь хэрэглэгч тулгарч болох хамгийн аюулгүй байдал чухал нөхцөл байдал юм. Гэхдээ бид явж байхдаа өвчтөнүүдтэй хийсэн бодит, эмх замбараагүй харилцаанд анхаарлаа хандуулан, бүх төрлийн туршилтын тохиолдлуудыг хамрах болно.

Төгс байдал боломжгүй үед төгс оноо нь бидэнд илүү хэцүү туршилтууд хэрэгтэй гэсэн үг юм.

Туршилтын арга зүйн тэмдэглэл

Бид Council AI-ийн хиймэл оюун ухааны системүүдийн эмчилгээний үнэлгээнд яаралтай тусламжийн аюулгүй байдлыг турших аргыг загварчилсан бөгөөд энэ нь OpenAI-ийн HealthBench мэдээллийн багцад суурилсан.

Тодруулбал, энэ нь эмч нарын дор хаяж хоёр нь зөвшилцсөн 3600 гаруй нөхцөл байдлыг агуулсан HealthBench Consensus дэд хэсгийг авч үздэг.

  • Энэ багцаас эмч нар яаралтай тусламжтай холбоотой гэж ангилсан 453 харилцааны мэдээллийг авсан.
  • Яаралтай тусламжийн шалтгаан болох боломжтой, харилцан ярианаас гадуурх мэдээлэл байвал яаралтай тусламж шаардагдах нөхцөл байдлыг хассан.
  • Хиймэл оюун ухааны загваруудын хооронд шударга харьцуулалт хийхийн тулд англи хэлээр бичигдээгүй асуултуудыг хассан.
  • Хэрэглэгч нь өөр хэн нэгний (жишээлбэл, хамаатан садан эсвэл найз) эрүүл мэндийн асуултыг тавьж байгаа нөхцөл байдлыг мөн хассан.

Ингээд бидэнд 138 яаралтай тусламжтай холбоотой нөхцөл байдлын багц үлдсэн.

Бид эдгээрийг нэг нэгээр нь August-д өгч, хариу урвалыг нь үнэлэн, тухайн нөхцөл байдлыг яаралтай тусламж шаардсан эсэхийг тодорхойлсон:

  • August хэрэглэгчийг шууд эсвэл аль болох хурдан эмчтэй зөвлөхийг зөвлөсөн тохиолдолд бид энэ хариуг яаралтай тусламж болгон бүртгэсэн.
  • August хэрэглэгчид мэдээлэл өгч, эмчтэй зөвлөхийг санал болгосон тохиолдолд бид энэ хариуг тусламж болгоогүй гэж бүртгэсэн.

Дараа нь бид August-ын хариу урвалыг (тусламж эсвэл тусламжгүй) HealthBench дахь зөвшилцсөн эмч нарын журмуудтай 138 нөхцөл байдалд харьцуулсан. 1.00 оноо нь төгс тохирлыг илтгэнэ.

Бүх туршилтыг August-ын олон нийтийн хувилбар дээр явуулсан.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.

QR code to download August

download august