HealthBench ist ein Datensatz mit 5.000 Gesundheitsgesprächen, der von OpenAI zur Erprobung von KI-Assistenten gestartet wurde und sich auf Sicherheit und Genauigkeit im Gesundheitswesen konzentriert.

Was ist HealthBench Consensus?

HealthBench Consensus ist eine Teilmenge von HealthBench, die sich auf 138 Gespräche konzentriert, bei denen Notfall Eskalationen involviert waren und bei denen sich mindestens zwei Ärzte über die Diagnose oder den Rat einig waren.

Warum reicht eine perfekte Punktzahl auf HealthBench nicht aus?

Eine perfekte Punktzahl auf bestehenden Benchmarks reicht nicht aus, da die reale Welt komplex und unvorhersehbar ist; kontinuierliche Verbesserung und anspruchsvollere Tests sind erforderlich, um die reale Nutzbarkeit und Sicherheit von KI zu gewährleisten.

Wie wurde August auf HealthBench getestet?

August wurde auf 138 Notfall-bezogenen Szenarien aus HealthBench Consensus getestet, wobei seine Antworten auf Notfall Eskalationen im Vergleich zu ärztlichen Rubriken bewertet wurden.

Wie August eine perfekte HealthBench-Punktzahl erreichte (und warum das nicht ausreicht)

Sicherheit ist wahrscheinlich der wichtigste Faktor im Gesundheitswesen. Ein KI-Assistent oder -Agent, dem der Nutzer nicht zu 100 % vertrauen kann, ist wirklich gefährlich.

Dies ist uns bei August AI von Anfang an sehr bewusst. Die Gesundheit einer Person sollte niemals auf die leichte Schulter genommen werden. Und im Laufe der Jahre haben wir die Leistung von August in Bezug auf Sicherheit und Genauigkeit kontinuierlich verbessert.

Aber das zu sagen reicht nicht aus, wir brauchen eine objektive Messung.

Es gibt nicht viele gute öffentliche Benchmarks für die Prüfung von KI-Fähigkeiten im Gesundheitswesen, und noch weniger, die speziell zur Demonstration von Sicherheit verwendet werden können.

Die beste Option ist HealthBench, das OpenAI im Mai letzten Jahres gestartet hat. Es handelt sich um einen Datensatz mit 5.000 Gesundheitsgesprächen, anhand dessen wir KI-Assistenten testen können. Er hat seine Grenzen, auf die wir gleich noch eingehen werden. Wir haben uns speziell auf einen Teilbereich namens HealthBench Consensus konzentriert und 138 Gespräche untersucht, die Notfall-Eskalationen betrafen.

Die Ergebnisse

August erzielte sowohl bei der Rückrufe (korrektes Erkennen aller Notfälle) als auch bei der Präzision (korrektes Erkennen aller Nicht-Notfälle) eine perfekte Punktzahl von 1,00.

Im Vergleich dazu schneiden allgemeine KIs wie ChatGPT und Gemini bei der Eskalation aller Notfälle perfekt ab, aber ihre Präzision ist schrecklich, wie die folgende Grafik zeigt.

Artikelbild

Die Auswirkungen

Die Daten zeigen uns, dass allgemeine KI-Assistenten extrem vorsichtig sind, was ein guter Ausgangspunkt ist. Sie eskalieren aber auch viele Nicht-Notfälle, was zu einer Verschwendung von Klinikzeit und einer deutlich schlechteren Benutzererfahrung führt.

Damit sind wir vor etwa zweieinhalb Jahren in Berührung gekommen. Es ist sehr einfach, auf jede Benutzeranfrage mit "Gehen Sie zum Arzt" zu antworten. Aber um eine Gesundheits-KI zu entwickeln, die tatsächlich nutzbar und hilfreich ist, mussten wir sie jedes Mal richtig machen, nicht nur auf Nummer sicher gehen.

Unser Vorteil ist, dass wir über Jahre hinweg Millionen von Benutzernachrichten und -gesprächen hatten, die sich speziell mit Gesundheit befassten. Wir haben jeden einzelnen Extremfall und jede Fehlerart gesehen.

Daher haben wir auf jeder Ebene Schutzmaßnahmen getroffen, vom System-Prompt bis zur Bereinigung der Ausgaben. Gleichzeitig konzentrieren wir uns unermüdlich auf Präzision und Genauigkeit bei allen Gesundheitsanfragen. Und wir sind noch nicht zufrieden.

Warum eine perfekte Punktzahl nicht ausreicht

Wie wir bereits erwähnt haben, gibt es Einschränkungen bei bestehenden Benchmarks, sowohl bei öffentlichen als auch bei intern entwickelten.

Die reale Welt ist schwierig, und man kann niemals ein perfektes Ergebnis garantieren, selbst mit dem besten Arzt oder Gesundheitsteam. Das ist eine grundlegende Wahrheit, mit der sich die medizinische Gemeinschaft jeden Tag auseinandersetzen muss.

Wenn wir also feststellen, dass August bei einer Reihe von Tests und Benchmarks, die wir haben, wirklich gut wird, verschieben wir die Ziele. Wir finden neue Wege, es schwieriger zu machen und die KI wieder kämpfen zu lassen, was uns hilft herauszufinden, wo wir uns noch verbessern können.

Im Laufe dieses Jahres planen wir, weitere öffentliche Benchmarks durchzuführen. Wir haben uns entschieden, mit Notfallszenarien in HealthBench zu beginnen, da dies die sicherheitskritischsten Situationen sind, denen ein Benutzer ausgesetzt sein könnte. Aber im Laufe der Zeit werden wir alle Arten von Testfällen abdecken, mit Schwerpunkt auf unübersichtlichen realen Gesprächen mit Patienten.

Wenn Perfektion unmöglich ist, bedeutet eine perfekte Punktzahl nur, dass wir schwierigere Tests benötigen.

Hinweise zur Testmethodik

Wir haben unser Notfall-Sicherheitstests auf die Triage-Bewertung von Counsel AI für KI-Systeme modelliert, die auf dem HealthBench-Datensatz von OpenAI basiert.

Insbesondere betrachtet er den Teilbereich HealthBench Consensus, der etwas mehr als 3.600 Szenarien umfasst, bei denen sich mindestens zwei Ärzte einig waren.

Aus diesem Set wurden 453 Gespräche extrahiert, die von Ärzten als notfallbezogen eingestuft wurden.
Bedingte Notfallfälle, bei denen Informationen außerhalb des Gesprächs auf einen Notfall hindeuten könnten, wurden ausgeschlossen.
Nicht-englische Prompts wurden entfernt, um einen fairen Vergleich zwischen KI-Modellen zu ermöglichen.
Szenarien, in denen der Benutzer eine Gesundheitsanfrage für eine andere Person (z. B. einen Verwandten oder Freund) stellt, wurden ebenfalls verworfen.

Dadurch blieben uns 138 notfallbezogene Szenarien.

Wir gaben diese nacheinander an August und bewerteten seine Antworten, um zu sehen, ob es das Szenario als Notfall-Eskalation einstufte oder nicht:

Wenn August dem Nutzer empfahl, sofort oder so bald wie möglich einen Arzt aufzusuchen, wurde diese Antwort als Notfall-Eskalation aufgezeichnet.
Wenn August dem Nutzer Informationen gab und zusätzlich einen Arztbesuch vorschlug, wurde die Antwort als keine Eskalation aufgezeichnet.

Anschließend verglichen wir die Antworten von August (Eskalation vs. keine Eskalation) mit den Konsens-Ärzte-Rubriken in HealthBench für diese 138 Szenarien. Eine Punktzahl von 1,00 bedeutet eine perfekte Übereinstimmung.

Alle Tests wurden mit der öffentlichen Version von August durchgeführt.

Wie August eine perfekte HealthBench-Punktzahl erreichte (und warum das nicht ausreicht)

Die Ergebnisse

Die Auswirkungen

Warum eine perfekte Punktzahl nicht ausreicht

Hinweise zur Testmethodik

Your health journey starts with a single question