HealthBench הוא מאגר נתונים של 5,000 שיחות בריאותיות שהושק על ידי OpenAI לבדיקת עוזרים וירטואליים, תוך התמקדות בבטיחות ובדיוק בתחום הבריאות.

מהו HealthBench Consensus?

HealthBench Consensus הוא תת-קבוצה של HealthBench המתמקדת ב-138 שיחות שכללו הסלמות חירום, בהן לפחות שני רופאים הסכימו על האבחנה או הייעוץ.

מדוע ציון מושלם ב-HealthBench אינו מספיק?

ציון מושלם במדדים קיימים אינו מספיק מכיוון שהעולם האמיתי מורכב ובלתי צפוי; נדרשים שיפור מתמשך ובדיקות מאתגרות יותר כדי להבטיח את השימושיות והבטיחות של AI בעולם האמיתי.

כיצד נבדק אוגוסט ב-HealthBench?

אוגוסט נבדק ב-138 תרחישים הקשורים למקרי חירום מ-HealthBench Consensus, תוך הערכת תגובותיו להסלמות חירום בהשוואה למדריכי רופאים.

כיצד אוגוסט השיג ציון HealthBench מושלם (ולמה זה לא מספיק)

בטיחות היא ככל הנראה הגורם החשוב ביותר בבריאות. עוזר AI או סוכן שהמשתמש אינו יכול לסמוך עליו שיהיה בטוח ב-100% הוא מסוכן באמת.

זה משהו שהיינו מאוד מודעים אליו מההתחלה ב-August AI. בריאותו של אדם לעולם לא צריכה להילקח בקלות ראש. ועם השנים שיפרנו ללא הרף את הביצועים של אוגוסט בנושאי בטיחות ודיוק.

אבל לא מספיק לומר זאת, אנחנו צריכים מדידה אובייקטיבית.

אין הרבה בנצ'מרקים ציבוריים טובים לבדיקת יכולות AI בתחום הבריאות, ועל אחת כמה וכמה כאלה שניתן להשתמש בהם להדגמת בטיחות באופן ספציפי.

האפשרות הטובה ביותר היא HealthBench, שהושק על ידי OpenAI במאי אשתקד. זהו מערך נתונים של 5,000 שיחות בריאות שנגדו אנו יכולים לבדוק עוזרי AI. יש לו מגבלות, שאליהן נגיע בעוד רגע. התמקדנו במיוחד בתת-קבוצה הנקראת HealthBench Consensus, ובחנו 138 שיחות שכללו הסלמות חירום.

התוצאות

אוגוסט קיבל ציון מושלם של 1.00 הן ב-recall (זיהוי כל מקרי החירום בצורה נכונה) והן ב-precision (זיהוי כל מקרי החירום שאינם מקרי חירום בצורה נכונה).

בהשוואה, AI כללי כמו ChatGPT ו-Gemini עושים מצוין בהסלמת כל מקרי החירום, אך ה-precision שלהם מחריד, כפי שמראה הגרף למטה.

תמונת מאמר

ההשלכות

מה שהנתונים מראים לנו הוא שעוזרי AI כלליים זהירים במיוחד, וזו נקודת פתיחה טובה. אבל הם גם מסלימים הרבה מקרי חירום שאינם מקרי חירום, מה שמוביל לבזבוז זמן של רופאים וחוויה גרועה בהרבה עבור המשתמש.

נתקלנו בזה לפני כשנתיים וחצי. קל מאוד פשוט לומר "לך לראות רופא" בתגובה לכל שאילתת משתמש. אבל כדי לבנות AI בריאותי שבאמת ניתן לשימוש ומועיל, היינו צריכים לעשות זאת נכון בכל פעם, לא רק לשחק אותה בטוח.

היתרון שלנו הוא שיש לנו מיליוני הודעות ושיחות משתמשים לאורך שנים שעוסקות ספציפית בבריאות. ראינו כל מקרה קצה ומצב כשל.

לכן בנינו מעקות בטיחות בכל רמה, מה-system prompt ועד לטיהור פלטים. ובמקביל התמקדנו ללא הרף ב-precision ובדיוק לכל שאילתות הבריאות. ועדיין לא סיפקנו.

למה ציון מושלם לא מספיק

כפי שציינו קודם, יש מגבלות לבנצ'מרקים קיימים, הן ציבוריים והן כאלה שבנינו לשימוש פנימי.

העולם האמיתי קשה ואי אפשר להבטיח תוצאה מושלמת, אפילו עם הרופא או צוות הבריאות הטוב ביותר. זוהי אמיתה יסודית שהקהילה הרפואית מתמודדת איתה מדי יום.

לכן, כאשר אנו רואים שאוגוסט הופך להיות טוב מאוד בסדרה של הערכות ובנצ'מרקים שיש לנו, אנו משנים את יעדינו. אנו מוצאים דרכים חדשות להפוך אותו למאתגר יותר ולגרום ל-AI להיאבק שוב, מה שעוזר לנו להבין היכן אנו יכולים להשתפר עוד יותר.

במהלך השנה הזו, אנו מתכננים להריץ בנצ'מרקים ציבוריים נוספים. החלטנו להתחיל עם תרחישי חירום ב-HealthBench מכיוון שאלו הם המצבים הקריטיים ביותר מבחינת בטיחות שמשתמש עלול להיתקל בהם. אבל תוך כדי כך, נכסה את כל סוגי מקרי המבחן, תוך התמקדות בשיחות אמיתיות ומבלבלות עם מטופלים.

כאשר שלמות אינה אפשרית, ציון מושלם רק אומר שאנו צריכים מבחנים קשים יותר.

הערות על מתודולוגיית הבדיקה

מודלנו את בדיקות הבטיחות למקרי חירום שלנו על פי הערכת הטריאז' של Counsel AI למערכות AI, המבוססת על מערך הנתונים HealthBench של OpenAI.

באופן ספציפי, הוא בוחן את תת-קבוצת HealthBench Consensus, הכוללת קצת יותר מ-3,600 תרחישים שבהם לפחות שני רופאים היו בהסכמה.

מתוך קבוצה זו, חולצו 453 שיחות שסווגו על ידי רופאים כמקושרות למקרי חירום.
מקרי חירום מותנים, שבהם מידע שאינו בשיחה עשוי להצביע על מקרה חירום, נשללו.
הנחיות שאינן באנגלית הוסרו, כדי לשמור על השוואה הוגנת בין מודלי AI.
תרחישים שבהם המשתמש מציג שאילתת בריאות עבור אדם אחר (כמו קרוב משפחה או חבר) נשללו גם הם.

זה השאיר אותנו עם קבוצה של 138 תרחישים הקשורים למקרי חירום.

נתנו להם אחד אחד לאוגוסט והערכנו את תגובותיו כדי לראות אם הוא זיהה את התרחיש כדורש הסלמת חירום או לא:

כאשר אוגוסט המליץ למשתמש לפנות לרופא מיידית או בהקדם האפשרי, רשמנו תגובה זו כהסלמת חירום.
כאשר אוגוסט נתן למשתמש מידע והציע גם להתייעץ עם רופא, רשמנו את התגובה כלא הסלמה.

לאחר מכן השווינו את תגובותיו של אוגוסט (הסלמה לעומת ללא הסלמה) לסולמות הרופאים המוסכמים ב-HealthBench עבור 138 התרחישים הללו. ציון של 1.00 מציין התאמה מושלמת.

כל הבדיקות נערכו על הגרסה הציבורית של אוגוסט.

כיצד אוגוסט השיג ציון HealthBench מושלם (ולמה זה לא מספיק)

התוצאות

ההשלכות

למה ציון מושלם לא מספיק

הערות על מתודולוגיית הבדיקה

Your health journey starts with a single question