Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
La seguridad es probablemente el factor más importante en la atención médica. Un asistente o agente de IA en el que el usuario no puede confiar al 100% es genuinamente peligroso.
Es algo de lo que hemos sido muy conscientes desde el principio en August AI. La salud de una persona nunca debe tomarse a la ligera. Y a lo largo de los años, hemos mejorado continuamente el rendimiento de August en seguridad y precisión.
Pero decir eso no es suficiente, necesitamos una medida objetiva.
No existen muchos puntos de referencia públicos buenos para probar las capacidades de IA en atención médica, y aún menos que puedan usarse para demostrar específicamente la seguridad.
La mejor opción es HealthBench, que OpenAI lanzó en mayo del año pasado. Es un conjunto de datos de 5.000 conversaciones de salud contra las cuales podemos probar los asistentes de IA. Tiene sus limitaciones, a las que llegaremos en un momento. Nos centramos específicamente en un subconjunto llamado HealthBench Consensus y examinamos 138 conversaciones que involucraron escaladas de emergencia.
August obtuvo un perfecto 1.00 tanto en recall (identificar todas las emergencias correctamente) como en precisión (identificar todas las no emergencias correctamente).
En comparación, la IA generalizada como ChatGPT y Gemini lo hace perfectamente al escalar todas las emergencias, pero su precisión es terrible, como se muestra en el gráfico a continuación.

Lo que los datos nos muestran es que los asistentes generales de IA son extremadamente cautelosos, lo cual es un buen punto de partida. Pero también escalan muchas no emergencias, lo que lleva a una pérdida de tiempo del médico y a una experiencia mucho peor para el usuario.
Nos encontramos con esto hace aproximadamente dos años y medio. Es muy fácil simplemente decir "ve al médico" en respuesta a cada consulta del usuario. Pero para construir una IA de salud que sea realmente utilizable y útil, necesitábamos hacerlo bien cada vez, no solo jugar a la segura.
Nuestra ventaja es que hemos tenido millones de mensajes y conversaciones de usuarios a lo largo de los años que tratan específicamente sobre salud. Hemos visto cada caso límite y modo de falla.
Por lo tanto, hemos construido barreras de seguridad en todos los niveles, desde el prompt del sistema hasta la sanitización de las salidas. Al mismo tiempo, nos enfocamos implacablemente en la precisión y exactitud para todas las consultas de salud. Y aún no estamos satisfechos.
Como mencionamos anteriormente, existen limitaciones en los puntos de referencia existentes, tanto públicos como los que hemos creado para uso interno.
El mundo real es difícil y nunca se puede garantizar un resultado perfecto, ni siquiera con el mejor médico o equipo de atención médica. Es una verdad fundamental que la fraternidad médica enfrenta todos los días.
Por lo tanto, cuando vemos que August está mejorando mucho en un conjunto de evaluaciones y puntos de referencia que tenemos, cambiamos los objetivos. Encontramos nuevas formas de hacerlo más desafiante y que la IA luche nuevamente, lo que nos ayuda a descubrir dónde podemos mejorar aún más.
A lo largo de este año, planeamos ejecutar más puntos de referencia públicos. Decidimos comenzar con escenarios de emergencia en HealthBench, ya que son las situaciones más críticas para la seguridad que un usuario podría enfrentar. Pero a medida que avancemos, cubriremos todo tipo de casos de prueba, con un enfoque en conversaciones desordenadas del mundo real con pacientes.
Cuando la perfección es imposible, una puntuación perfecta solo significa que necesitamos pruebas más difíciles.
Modelamos nuestras pruebas de seguridad de emergencia en la evaluación de triaje de Counsel AI para sistemas de IA, que se basa en el conjunto de datos HealthBench de OpenAI.
Específicamente, examina el subconjunto HealthBench Consensus, que comprende un poco más de 3.600 escenarios en los que al menos dos médicos estuvieron de acuerdo.
Eso nos dejó con un conjunto de 138 escenarios relacionados con emergencias.
Le dimos esos escenarios uno a la vez a August y evaluamos sus respuestas para ver si identificaba el escenario como necesitando una escalada de emergencia o no:
Luego comparamos las respuestas de August (escalada vs. no escalada) con los criterios de consenso de los médicos en HealthBench para esos 138 escenarios. Una puntuación de 1.00 indica una coincidencia perfecta.
Todas las pruebas se realizaron en la versión pública de August.
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.