Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
La sécurité est probablement le facteur le plus important dans les soins de santé. Un assistant ou un agent d'IA en lequel l'utilisateur ne peut pas avoir confiance à 100 % est véritablement dangereux.
C'est quelque chose dont nous avons été très conscients dès le début chez August AI. La santé d'une personne ne doit jamais être prise à la légère. Et au fil des ans, nous avons continuellement amélioré les performances d'August en matière de sécurité et de précision.
Mais dire cela ne suffit pas, nous avons besoin d'une mesure objective.
Il n'existe pas beaucoup de bons points de référence publics pour tester les capacités de l'IA dans le domaine de la santé, et encore moins pour démontrer spécifiquement la sécurité.
La meilleure option est HealthBench, que OpenAI a lancé en mai dernier. Il s'agit d'un ensemble de données de 5 000 conversations sur la santé sur lequel nous pouvons tester les assistants d'IA. Il a ses limites, que nous aborderons bientôt. Nous nous sommes concentrés spécifiquement sur un sous-ensemble appelé HealthBench Consensus, et avons examiné 138 conversations impliquant des escalades d'urgence.
August a obtenu un score parfait de 1,00 en rappel (identification correcte de toutes les urgences) et en précision (identification correcte de toutes les non-urgences).
En comparaison, les IA généralistes comme ChatGPT et Gemini sont parfaites pour escalader toutes les urgences, mais leur précision est désastreuse, comme le montre le graphique ci-dessous.

Ce que les données nous montrent, c'est que les assistants d'IA généraux sont extrêmement prudents, ce qui est un bon point de départ. Mais ils escaladent également de nombreuses non-urgences, ce qui entraîne une perte de temps pour les cliniciens et une expérience bien pire pour l'utilisateur.
Nous avons rencontré ce problème il y a environ deux ans et demi. Il est très facile de dire « consultez un médecin » en réponse à chaque requête de l'utilisateur. Mais pour construire une IA de santé réellement utilisable et utile, nous devions y arriver à chaque fois, pas seulement jouer la sécurité.
Notre avantage est que nous avons eu des millions de messages et de conversations d'utilisateurs au fil des ans qui portent spécifiquement sur la santé. Nous avons vu tous les cas limites et tous les modes d'échec.
Nous avons donc mis en place des garde-fous à tous les niveaux, du prompt système à l'assainissement des sorties. Tout en nous concentrant sans relâche sur la précision et l'exactitude de toutes les requêtes de santé. Et nous ne sommes pas encore satisfaits.
Comme nous l'avons mentionné précédemment, les benchmarks existants ont des limites, tant publics que ceux que nous avons construits pour un usage interne.
Le monde réel est difficile et on ne peut jamais garantir un résultat parfait, même avec le meilleur médecin ou la meilleure équipe de soins de santé. C'est une vérité fondamentale à laquelle la communauté médicale est confrontée chaque jour.
Ainsi, lorsque nous constatons qu'August s'améliore considérablement dans un ensemble d'évaluations et de benchmarks que nous avons, nous décalons les objectifs. Nous trouvons de nouvelles façons de rendre les choses plus difficiles et de faire en sorte que l'IA lutte à nouveau, ce qui nous aide à comprendre où nous pouvons faire encore mieux.
Au cours de cette année, nous prévoyons de réaliser davantage de benchmarks publics. Nous avons décidé de commencer par des scénarios d'urgence dans HealthBench, car ce sont les situations les plus critiques en matière de sécurité auxquelles un utilisateur pourrait être confronté. Mais au fur et à mesure, nous couvrirons toutes sortes de cas de test, en nous concentrant sur les conversations complexes du monde réel avec les patients.
Lorsque la perfection est impossible, un score parfait signifie simplement que nous avons besoin de tests plus difficiles.
Nous avons modélisé nos tests de sécurité d'urgence sur l'évaluation de triage de Counsel AI pour les systèmes d'IA, qui est basée sur l'ensemble de données HealthBench d'OpenAI.
Plus précisément, il examine le sous-ensemble HealthBench Consensus, qui comprend un peu plus de 3 600 scénarios dans lesquels au moins deux médecins étaient d'accord.
Il nous restait donc un ensemble de 138 scénarios liés à des urgences.
Nous avons donné ces scénarios un par un à August et avons évalué ses réponses pour voir s'il identifiait le scénario comme nécessitant une escalade d'urgence ou non :
Nous avons ensuite comparé les réponses d'August (escalade vs pas d'escalade) aux grilles de consensus des médecins dans HealthBench pour ces 138 scénarios. Un score de 1,00 indique une correspondance parfaite.
Tous les tests ont été effectués sur la version publique d'August.
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.