Health Library

Comment August a obtenu un score parfait sur HealthBench (et pourquoi ce n'est pas suffisant)

February 18, 2026

Question on this topic? Get an instant answer from August.

La sécurité est probablement le facteur le plus important dans les soins de santé. Un assistant ou un agent d'IA en lequel l'utilisateur ne peut pas avoir confiance à 100 % est véritablement dangereux.

C'est quelque chose dont nous avons été très conscients dès le début chez August AI. La santé d'une personne ne doit jamais être prise à la légère. Et au fil des ans, nous avons continuellement amélioré les performances d'August en matière de sécurité et de précision.

Mais dire cela ne suffit pas, nous avons besoin d'une mesure objective.

Il n'existe pas beaucoup de bons points de référence publics pour tester les capacités de l'IA dans le domaine de la santé, et encore moins pour démontrer spécifiquement la sécurité.

La meilleure option est HealthBench, que OpenAI a lancé en mai dernier. Il s'agit d'un ensemble de données de 5 000 conversations sur la santé sur lequel nous pouvons tester les assistants d'IA. Il a ses limites, que nous aborderons bientôt. Nous nous sommes concentrés spécifiquement sur un sous-ensemble appelé HealthBench Consensus, et avons examiné 138 conversations impliquant des escalades d'urgence.

Les résultats

August a obtenu un score parfait de 1,00 en rappel (identification correcte de toutes les urgences) et en précision (identification correcte de toutes les non-urgences).

En comparaison, les IA généralistes comme ChatGPT et Gemini sont parfaites pour escalader toutes les urgences, mais leur précision est désastreuse, comme le montre le graphique ci-dessous.

Image de l'article

Les implications

Ce que les données nous montrent, c'est que les assistants d'IA généraux sont extrêmement prudents, ce qui est un bon point de départ. Mais ils escaladent également de nombreuses non-urgences, ce qui entraîne une perte de temps pour les cliniciens et une expérience bien pire pour l'utilisateur.

Nous avons rencontré ce problème il y a environ deux ans et demi. Il est très facile de dire « consultez un médecin » en réponse à chaque requête de l'utilisateur. Mais pour construire une IA de santé réellement utilisable et utile, nous devions y arriver à chaque fois, pas seulement jouer la sécurité.

Notre avantage est que nous avons eu des millions de messages et de conversations d'utilisateurs au fil des ans qui portent spécifiquement sur la santé. Nous avons vu tous les cas limites et tous les modes d'échec.

Nous avons donc mis en place des garde-fous à tous les niveaux, du prompt système à l'assainissement des sorties. Tout en nous concentrant sans relâche sur la précision et l'exactitude de toutes les requêtes de santé. Et nous ne sommes pas encore satisfaits.

Pourquoi un score parfait ne suffit pas

Comme nous l'avons mentionné précédemment, les benchmarks existants ont des limites, tant publics que ceux que nous avons construits pour un usage interne.

Le monde réel est difficile et on ne peut jamais garantir un résultat parfait, même avec le meilleur médecin ou la meilleure équipe de soins de santé. C'est une vérité fondamentale à laquelle la communauté médicale est confrontée chaque jour.

Ainsi, lorsque nous constatons qu'August s'améliore considérablement dans un ensemble d'évaluations et de benchmarks que nous avons, nous décalons les objectifs. Nous trouvons de nouvelles façons de rendre les choses plus difficiles et de faire en sorte que l'IA lutte à nouveau, ce qui nous aide à comprendre où nous pouvons faire encore mieux.

Au cours de cette année, nous prévoyons de réaliser davantage de benchmarks publics. Nous avons décidé de commencer par des scénarios d'urgence dans HealthBench, car ce sont les situations les plus critiques en matière de sécurité auxquelles un utilisateur pourrait être confronté. Mais au fur et à mesure, nous couvrirons toutes sortes de cas de test, en nous concentrant sur les conversations complexes du monde réel avec les patients.

Lorsque la perfection est impossible, un score parfait signifie simplement que nous avons besoin de tests plus difficiles.

Notes sur la méthodologie de test

Nous avons modélisé nos tests de sécurité d'urgence sur l'évaluation de triage de Counsel AI pour les systèmes d'IA, qui est basée sur l'ensemble de données HealthBench d'OpenAI.

Plus précisément, il examine le sous-ensemble HealthBench Consensus, qui comprend un peu plus de 3 600 scénarios dans lesquels au moins deux médecins étaient d'accord.

À partir de cet ensemble, 453 conversations classées comme liées à une urgence par des médecins ont été extraites.
Les cas d'urgence conditionnels, où des informations non présentes dans la conversation pourraient indiquer une urgence, ont été exclus.
Les prompts non anglais ont été supprimés, afin de maintenir une comparaison équitable entre les modèles d'IA.
Les scénarios où l'utilisateur présente une requête de santé pour quelqu'un d'autre (comme un parent ou un ami) ont également été écartés.

Il nous restait donc un ensemble de 138 scénarios liés à des urgences.

Nous avons donné ces scénarios un par un à August et avons évalué ses réponses pour voir s'il identifiait le scénario comme nécessitant une escalade d'urgence ou non :

Lorsque August recommandait à l'utilisateur de consulter un médecin immédiatement ou dès que possible, nous avons enregistré cette réponse comme une escalade d'urgence.
Lorsque August fournissait des informations à l'utilisateur et suggérait également de consulter un médecin, nous avons enregistré la réponse comme n'étant pas une escalade.

Nous avons ensuite comparé les réponses d'August (escalade vs pas d'escalade) aux grilles de consensus des médecins dans HealthBench pour ces 138 scénarios. Un score de 1,00 indique une correspondance parfaite.

Tous les tests ont été effectués sur la version publique d'August.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.