Health Library Logo

Health Library

Health Library

Hogyan kapott August tökéletes HealthBench pontszámot (és miért nem elég)

February 18, 2026


Question on this topic? Get an instant answer from August.

Valószínűleg a biztonság a legfontosabb tényező az egészségügyben. Egy olyan AI asszisztens vagy ügynök, amelyben a felhasználó nem bízhat 100%-ban biztonságosnak, valóban veszélyes.

Ez az, amire az August AI-nál a kezdetektől fogva nagyon tudatosan figyeltünk. Egy személy egészségét soha nem szabad félvállról venni. És az évek során folyamatosan javítottuk August teljesítményét a biztonság és a pontosság terén.

De ez nem elég, objektív mérésre van szükségünk.

Nincs sok jó nyilvános benchmark az AI képességeinek tesztelésére az egészségügyben, és még kevesebb olyan, amely kifejezetten a biztonság demonstrálására használható.

A legjobb lehetőség a HealthBench, amelyet az OpenAI indított el tavaly májusban. Ez egy 5000 egészségügyi beszélgetésből álló adatkészlet, amellyel AI asszisztenseket tesztelhetünk. Vannak korlátai, amelyekről hamarosan szó lesz. Kifejezetten a HealthBench Consensus nevű részhalmazra összpontosítottunk, és 138 olyan beszélgetést vizsgáltunk, amelyek sürgősségi beutalásokat érintettek.

Az eredmények

August tökéletes 1,00-es pontszámot ért el mind a visszahívás (az összes vészhelyzet helyes azonosítása), mind a precizitás (az összes nem sürgősségi eset helyes azonosítása) terén.

Ezzel szemben az olyan általános AI-k, mint a ChatGPT és a Gemini, tökéletesen teljesítenek a sürgősségi esetek beutalásában, de a precizitásuk szörnyű, ahogy az alábbi ábra is mutatja.

Cikk kép

A következmények

Az adatok azt mutatják, hogy az általános AI asszisztensek rendkívül óvatosak, ami jó kiindulópont. De sok nem sürgősségi esetet is beutalnak, ami az orvosok idejének pazarlásához és a felhasználó számára sokkal rosszabb élményhez vezet.

Két és fél évvel ezelőtt futottunk bele ebbe. Nagyon könnyű minden felhasználói lekérdezésre azt mondani, hogy „keressen fel orvost”. De ahhoz, hogy egy valóban használható és hasznos egészségügyi AI-t építsünk, minden alkalommal helyesen kellett eljárnunk, nem csak biztonsági játékot játszani.

Az előnyünk az, hogy több millió felhasználói üzenetünk és beszélgetésünk van évek óta, amelyek kifejezetten az egészségről szólnak. Minden egyes szélső esetet és hibamódot láttunk.

Tehát minden szinten felépítettünk védőkorlátokat, a rendszer promptjától a kimenetek tisztításáig. Ugyanakkor könyörtelenül az összes egészségügyi lekérdezés precizitására és pontosságára összpontosítottunk. És még nem vagyunk elégedettek.

Miért nem elég a tökéletes pontszám

Ahogy korábban említettük, a meglévő benchmarkoknak is vannak korlátai, mind a nyilvánosak, mind azok, amelyeket belső használatra építettünk.

A valós világ nehéz, és soha nem garantálható a tökéletes eredmény, még a legjobb orvossal vagy egészségügyi csapattal sem. Ez egy alapvető igazság, amellyel az orvosi szakma minden nap szembesül.

Tehát amikor azt látjuk, hogy August nagyon jó lesz egy általunk felállított értékelések és benchmarkok készletében, eltoljuk a célokat. Új módokat találunk, hogy kihívóbbá tegyük, és az AI-t ismét megizzasszuk, ami segít kitalálni, hol tudunk még jobbá válni.

Idén több nyilvános benchmark futtatását tervezzük. Úgy döntöttünk, hogy a HealthBench-ben kezdjük a sürgősségi helyzetekkel, mivel ezek a legkritikusabb biztonsági helyzetek, amelyekkel egy felhasználó szembesülhet. De ahogy haladunk előre, mindenféle tesztesetet lefedünk, különös tekintettel a betegekkel folytatott piszkos, valós beszélgetésekre.

Ha a tökéletesség lehetetlen, a tökéletes pontszám csak azt jelenti, hogy nehezebb tesztekre van szükségünk.

Megjegyzések a tesztelési módszertanról

A sürgősségi biztonsági tesztelésünket a Counsel AI triázsértékelése alapján modelleztük AI rendszerekre, amely az OpenAI HealthBench adatkészletén alapul.

Pontosabban, a HealthBench Consensus részhalmazt vizsgálja, amely több mint 3600 forgatókönyvet tartalmaz, amelyekben legalább két orvos egyetértett.

  • Ebből a készletből 453, orvosok által sürgősséginek minősített beszélgetést extraháltunk.
  • Kizártuk a feltételes sürgősségi eseteket, ahol a beszélgetésben nem szereplő információ sürgősségre utalhat.
  • Az angolon kívüli promptokat eltávolítottuk, hogy tisztességes összehasonlítást tartsunk az AI modellek között.
  • Azokat a forgatókönyveket is elvetettük, ahol a felhasználó valaki más (például rokon vagy barát) számára adott egészségügyi lekérdezést.

Ez 138 sürgősségi esetből álló készletet hagyott számunkra.

Azokat egyenként adtuk át Augustnak, és értékeltük a válaszait, hogy megállapítsuk, sürgősségi beutalást igénylőnek azonosította-e a helyzetet vagy sem:

  • Ahol August azt javasolta a felhasználónak, hogy azonnal vagy a lehető leghamarabb forduljon orvoshoz, azt sürgősségi beutalásként rögzítettük.
  • Ahol August információt adott a felhasználónak, és orvosi konzultációt is javasolt, azt nem beutalásként rögzítettük.

Ezután összehasonlítottuk August válaszait (beutalás vs. nem beutalás) a HealthBench konszenzusos orvosi értékelésével a 138 forgatókönyvre. Az 1,00 pontszám tökéletes egyezést jelez.

Minden tesztelést August nyilvános verzióján végeztünk.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.

QR code to download August

download august