Health Library

¿Cómo August obtuvo una puntuación perfecta en HealthBench (y por qué no es suficiente)?

February 18, 2026

Question on this topic? Get an instant answer from August.

La seguridad es probablemente el factor más importante en la atención médica. Un asistente o agente de IA en el que el usuario no puede confiar al 100% es genuinamente peligroso.

Es algo de lo que hemos sido muy conscientes desde el principio en August AI. La salud de una persona nunca debe tomarse a la ligera. Y a lo largo de los años, hemos mejorado continuamente el rendimiento de August en seguridad y precisión.

Pero decir eso no es suficiente, necesitamos una medida objetiva.

No existen muchos puntos de referencia públicos buenos para probar las capacidades de IA en atención médica, y aún menos que puedan usarse para demostrar específicamente la seguridad.

La mejor opción es HealthBench, que OpenAI lanzó en mayo del año pasado. Es un conjunto de datos de 5.000 conversaciones de salud contra las cuales podemos probar los asistentes de IA. Tiene sus limitaciones, a las que llegaremos en un momento. Nos centramos específicamente en un subconjunto llamado HealthBench Consensus y examinamos 138 conversaciones que involucraron escaladas de emergencia.

Los resultados

August obtuvo un perfecto 1.00 tanto en recall (identificar todas las emergencias correctamente) como en precisión (identificar todas las no emergencias correctamente).

En comparación, la IA generalizada como ChatGPT y Gemini lo hace perfectamente al escalar todas las emergencias, pero su precisión es terrible, como se muestra en el gráfico a continuación.

Imagen del artículo

Las implicaciones

Lo que los datos nos muestran es que los asistentes generales de IA son extremadamente cautelosos, lo cual es un buen punto de partida. Pero también escalan muchas no emergencias, lo que lleva a una pérdida de tiempo del médico y a una experiencia mucho peor para el usuario.

Nos encontramos con esto hace aproximadamente dos años y medio. Es muy fácil simplemente decir "ve al médico" en respuesta a cada consulta del usuario. Pero para construir una IA de salud que sea realmente utilizable y útil, necesitábamos hacerlo bien cada vez, no solo jugar a la segura.

Nuestra ventaja es que hemos tenido millones de mensajes y conversaciones de usuarios a lo largo de los años que tratan específicamente sobre salud. Hemos visto cada caso límite y modo de falla.

Por lo tanto, hemos construido barreras de seguridad en todos los niveles, desde el prompt del sistema hasta la sanitización de las salidas. Al mismo tiempo, nos enfocamos implacablemente en la precisión y exactitud para todas las consultas de salud. Y aún no estamos satisfechos.

Por qué una puntuación perfecta no es suficiente

Como mencionamos anteriormente, existen limitaciones en los puntos de referencia existentes, tanto públicos como los que hemos creado para uso interno.

El mundo real es difícil y nunca se puede garantizar un resultado perfecto, ni siquiera con el mejor médico o equipo de atención médica. Es una verdad fundamental que la fraternidad médica enfrenta todos los días.

Por lo tanto, cuando vemos que August está mejorando mucho en un conjunto de evaluaciones y puntos de referencia que tenemos, cambiamos los objetivos. Encontramos nuevas formas de hacerlo más desafiante y que la IA luche nuevamente, lo que nos ayuda a descubrir dónde podemos mejorar aún más.

A lo largo de este año, planeamos ejecutar más puntos de referencia públicos. Decidimos comenzar con escenarios de emergencia en HealthBench, ya que son las situaciones más críticas para la seguridad que un usuario podría enfrentar. Pero a medida que avancemos, cubriremos todo tipo de casos de prueba, con un enfoque en conversaciones desordenadas del mundo real con pacientes.

Cuando la perfección es imposible, una puntuación perfecta solo significa que necesitamos pruebas más difíciles.

Notas sobre la metodología de prueba

Modelamos nuestras pruebas de seguridad de emergencia en la evaluación de triaje de Counsel AI para sistemas de IA, que se basa en el conjunto de datos HealthBench de OpenAI.

Específicamente, examina el subconjunto HealthBench Consensus, que comprende un poco más de 3.600 escenarios en los que al menos dos médicos estuvieron de acuerdo.

De ese conjunto, se extrajeron 453 conversaciones categorizadas por médicos como relacionadas con emergencias.
Se excluyeron los casos de emergencia condicional, donde la información no presente en la conversación podría indicar una emergencia.
Se eliminaron los prompts que no estaban en inglés, para mantener una comparación justa entre los modelos de IA.
También se descartaron los escenarios en los que el usuario presenta una consulta de salud para otra persona (como un familiar o un amigo).

Eso nos dejó con un conjunto de 138 escenarios relacionados con emergencias.

Le dimos esos escenarios uno a la vez a August y evaluamos sus respuestas para ver si identificaba el escenario como necesitando una escalada de emergencia o no:

Donde August recomendó al usuario que viera a un médico de inmediato o lo antes posible, registramos esa respuesta como una escalada de emergencia.
Donde August le dio información al usuario y también sugirió consultar a un médico, registramos la respuesta como no una escalada.

Luego comparamos las respuestas de August (escalada vs. no escalada) con los criterios de consenso de los médicos en HealthBench para esos 138 escenarios. Una puntuación de 1.00 indica una coincidencia perfecta.

Todas las pruebas se realizaron en la versión pública de August.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.