Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
בטיחות היא ככל הנראה הגורם החשוב ביותר בבריאות. עוזר AI או סוכן שהמשתמש אינו יכול לסמוך עליו שיהיה בטוח ב-100% הוא מסוכן באמת.
זה משהו שהיינו מאוד מודעים אליו מההתחלה ב-August AI. בריאותו של אדם לעולם לא צריכה להילקח בקלות ראש. ועם השנים שיפרנו ללא הרף את הביצועים של אוגוסט בנושאי בטיחות ודיוק.
אבל לא מספיק לומר זאת, אנחנו צריכים מדידה אובייקטיבית.
אין הרבה בנצ'מרקים ציבוריים טובים לבדיקת יכולות AI בתחום הבריאות, ועל אחת כמה וכמה כאלה שניתן להשתמש בהם להדגמת בטיחות באופן ספציפי.
האפשרות הטובה ביותר היא HealthBench, שהושק על ידי OpenAI במאי אשתקד. זהו מערך נתונים של 5,000 שיחות בריאות שנגדו אנו יכולים לבדוק עוזרי AI. יש לו מגבלות, שאליהן נגיע בעוד רגע. התמקדנו במיוחד בתת-קבוצה הנקראת HealthBench Consensus, ובחנו 138 שיחות שכללו הסלמות חירום.
אוגוסט קיבל ציון מושלם של 1.00 הן ב-recall (זיהוי כל מקרי החירום בצורה נכונה) והן ב-precision (זיהוי כל מקרי החירום שאינם מקרי חירום בצורה נכונה).
בהשוואה, AI כללי כמו ChatGPT ו-Gemini עושים מצוין בהסלמת כל מקרי החירום, אך ה-precision שלהם מחריד, כפי שמראה הגרף למטה.

מה שהנתונים מראים לנו הוא שעוזרי AI כלליים זהירים במיוחד, וזו נקודת פתיחה טובה. אבל הם גם מסלימים הרבה מקרי חירום שאינם מקרי חירום, מה שמוביל לבזבוז זמן של רופאים וחוויה גרועה בהרבה עבור המשתמש.
נתקלנו בזה לפני כשנתיים וחצי. קל מאוד פשוט לומר "לך לראות רופא" בתגובה לכל שאילתת משתמש. אבל כדי לבנות AI בריאותי שבאמת ניתן לשימוש ומועיל, היינו צריכים לעשות זאת נכון בכל פעם, לא רק לשחק אותה בטוח.
היתרון שלנו הוא שיש לנו מיליוני הודעות ושיחות משתמשים לאורך שנים שעוסקות ספציפית בבריאות. ראינו כל מקרה קצה ומצב כשל.
לכן בנינו מעקות בטיחות בכל רמה, מה-system prompt ועד לטיהור פלטים. ובמקביל התמקדנו ללא הרף ב-precision ובדיוק לכל שאילתות הבריאות. ועדיין לא סיפקנו.
כפי שציינו קודם, יש מגבלות לבנצ'מרקים קיימים, הן ציבוריים והן כאלה שבנינו לשימוש פנימי.
העולם האמיתי קשה ואי אפשר להבטיח תוצאה מושלמת, אפילו עם הרופא או צוות הבריאות הטוב ביותר. זוהי אמיתה יסודית שהקהילה הרפואית מתמודדת איתה מדי יום.
לכן, כאשר אנו רואים שאוגוסט הופך להיות טוב מאוד בסדרה של הערכות ובנצ'מרקים שיש לנו, אנו משנים את יעדינו. אנו מוצאים דרכים חדשות להפוך אותו למאתגר יותר ולגרום ל-AI להיאבק שוב, מה שעוזר לנו להבין היכן אנו יכולים להשתפר עוד יותר.
במהלך השנה הזו, אנו מתכננים להריץ בנצ'מרקים ציבוריים נוספים. החלטנו להתחיל עם תרחישי חירום ב-HealthBench מכיוון שאלו הם המצבים הקריטיים ביותר מבחינת בטיחות שמשתמש עלול להיתקל בהם. אבל תוך כדי כך, נכסה את כל סוגי מקרי המבחן, תוך התמקדות בשיחות אמיתיות ומבלבלות עם מטופלים.
כאשר שלמות אינה אפשרית, ציון מושלם רק אומר שאנו צריכים מבחנים קשים יותר.
מודלנו את בדיקות הבטיחות למקרי חירום שלנו על פי הערכת הטריאז' של Counsel AI למערכות AI, המבוססת על מערך הנתונים HealthBench של OpenAI.
באופן ספציפי, הוא בוחן את תת-קבוצת HealthBench Consensus, הכוללת קצת יותר מ-3,600 תרחישים שבהם לפחות שני רופאים היו בהסכמה.
זה השאיר אותנו עם קבוצה של 138 תרחישים הקשורים למקרי חירום.
נתנו להם אחד אחד לאוגוסט והערכנו את תגובותיו כדי לראות אם הוא זיהה את התרחיש כדורש הסלמת חירום או לא:
לאחר מכן השווינו את תגובותיו של אוגוסט (הסלמה לעומת ללא הסלמה) לסולמות הרופאים המוסכמים ב-HealthBench עבור 138 התרחישים הללו. ציון של 1.00 מציין התאמה מושלמת.
כל הבדיקות נערכו על הגרסה הציבורית של אוגוסט.
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.