Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
Sicherheit ist wahrscheinlich der wichtigste Faktor im Gesundheitswesen. Ein KI-Assistent oder -Agent, dem der Nutzer nicht zu 100 % vertrauen kann, ist wirklich gefährlich.
Dies ist uns bei August AI von Anfang an sehr bewusst. Die Gesundheit einer Person sollte niemals auf die leichte Schulter genommen werden. Und im Laufe der Jahre haben wir die Leistung von August in Bezug auf Sicherheit und Genauigkeit kontinuierlich verbessert.
Aber das zu sagen reicht nicht aus, wir brauchen eine objektive Messung.
Es gibt nicht viele gute öffentliche Benchmarks für die Prüfung von KI-Fähigkeiten im Gesundheitswesen, und noch weniger, die speziell zur Demonstration von Sicherheit verwendet werden können.
Die beste Option ist HealthBench, das OpenAI im Mai letzten Jahres gestartet hat. Es handelt sich um einen Datensatz mit 5.000 Gesundheitsgesprächen, anhand dessen wir KI-Assistenten testen können. Er hat seine Grenzen, auf die wir gleich noch eingehen werden. Wir haben uns speziell auf einen Teilbereich namens HealthBench Consensus konzentriert und 138 Gespräche untersucht, die Notfall-Eskalationen betrafen.
August erzielte sowohl bei der Rückrufe (korrektes Erkennen aller Notfälle) als auch bei der Präzision (korrektes Erkennen aller Nicht-Notfälle) eine perfekte Punktzahl von 1,00.
Im Vergleich dazu schneiden allgemeine KIs wie ChatGPT und Gemini bei der Eskalation aller Notfälle perfekt ab, aber ihre Präzision ist schrecklich, wie die folgende Grafik zeigt.

Die Daten zeigen uns, dass allgemeine KI-Assistenten extrem vorsichtig sind, was ein guter Ausgangspunkt ist. Sie eskalieren aber auch viele Nicht-Notfälle, was zu einer Verschwendung von Klinikzeit und einer deutlich schlechteren Benutzererfahrung führt.
Damit sind wir vor etwa zweieinhalb Jahren in Berührung gekommen. Es ist sehr einfach, auf jede Benutzeranfrage mit "Gehen Sie zum Arzt" zu antworten. Aber um eine Gesundheits-KI zu entwickeln, die tatsächlich nutzbar und hilfreich ist, mussten wir sie jedes Mal richtig machen, nicht nur auf Nummer sicher gehen.
Unser Vorteil ist, dass wir über Jahre hinweg Millionen von Benutzernachrichten und -gesprächen hatten, die sich speziell mit Gesundheit befassten. Wir haben jeden einzelnen Extremfall und jede Fehlerart gesehen.
Daher haben wir auf jeder Ebene Schutzmaßnahmen getroffen, vom System-Prompt bis zur Bereinigung der Ausgaben. Gleichzeitig konzentrieren wir uns unermüdlich auf Präzision und Genauigkeit bei allen Gesundheitsanfragen. Und wir sind noch nicht zufrieden.
Wie wir bereits erwähnt haben, gibt es Einschränkungen bei bestehenden Benchmarks, sowohl bei öffentlichen als auch bei intern entwickelten.
Die reale Welt ist schwierig, und man kann niemals ein perfektes Ergebnis garantieren, selbst mit dem besten Arzt oder Gesundheitsteam. Das ist eine grundlegende Wahrheit, mit der sich die medizinische Gemeinschaft jeden Tag auseinandersetzen muss.
Wenn wir also feststellen, dass August bei einer Reihe von Tests und Benchmarks, die wir haben, wirklich gut wird, verschieben wir die Ziele. Wir finden neue Wege, es schwieriger zu machen und die KI wieder kämpfen zu lassen, was uns hilft herauszufinden, wo wir uns noch verbessern können.
Im Laufe dieses Jahres planen wir, weitere öffentliche Benchmarks durchzuführen. Wir haben uns entschieden, mit Notfallszenarien in HealthBench zu beginnen, da dies die sicherheitskritischsten Situationen sind, denen ein Benutzer ausgesetzt sein könnte. Aber im Laufe der Zeit werden wir alle Arten von Testfällen abdecken, mit Schwerpunkt auf unübersichtlichen realen Gesprächen mit Patienten.
Wenn Perfektion unmöglich ist, bedeutet eine perfekte Punktzahl nur, dass wir schwierigere Tests benötigen.
Wir haben unser Notfall-Sicherheitstests auf die Triage-Bewertung von Counsel AI für KI-Systeme modelliert, die auf dem HealthBench-Datensatz von OpenAI basiert.
Insbesondere betrachtet er den Teilbereich HealthBench Consensus, der etwas mehr als 3.600 Szenarien umfasst, bei denen sich mindestens zwei Ärzte einig waren.
Dadurch blieben uns 138 notfallbezogene Szenarien.
Wir gaben diese nacheinander an August und bewerteten seine Antworten, um zu sehen, ob es das Szenario als Notfall-Eskalation einstufte oder nicht:
Anschließend verglichen wir die Antworten von August (Eskalation vs. keine Eskalation) mit den Konsens-Ärzte-Rubriken in HealthBench für diese 138 Szenarien. Eine Punktzahl von 1,00 bedeutet eine perfekte Übereinstimmung.
Alle Tests wurden mit der öffentlichen Version von August durchgeführt.
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.