Health Library

Πώς η August πέτυχε τέλεια βαθμολογία HealthBench (και γιατί δεν αρκεί)

February 18, 2026

Question on this topic? Get an instant answer from August.

Η ασφάλεια είναι ίσως ο πιο σημαντικός παράγοντας στην υγειονομική περίθαλψη. Ένας βοηθός AI ή ένας πράκτορας στον οποίο ο χρήστης δεν μπορεί να εμπιστευτεί ότι είναι 100% ασφαλής είναι πραγματικά επικίνδυνος.

Είναι κάτι για το οποίο ήμασταν πολύ συνειδητοί από την αρχή στην August AI. Η υγεία ενός ατόμου δεν πρέπει ποτέ να λαμβάνεται ελαφρά. Και με την πάροδο των ετών, βελτιώναμε συνεχώς την απόδοση της August στην ασφάλεια και την ακρίβεια.

Αλλά το να λέμε αυτό δεν αρκεί, χρειαζόμαστε μια αντικειμενική μέτρηση.

Δεν υπάρχουν πολλά καλά δημόσια benchmarks για τη δοκιμή των δυνατοτήτων της AI στην υγειονομική περίθαλψη, και ακόμη λιγότερα που μπορούν να χρησιμοποιηθούν για την επίδειξη της ασφάλειας ειδικά.

Η καλύτερη επιλογή είναι το HealthBench, το οποίο λάνσαρε η OpenAI τον Μάιο του περασμένου έτους. Είναι ένα σύνολο δεδομένων 5.000 συνομιλιών υγείας με το οποίο μπορούμε να δοκιμάσουμε τους βοηθούς AI. Έχει τους περιορισμούς του, στους οποίους θα φτάσουμε σε λίγο. Εστιάσαμε συγκεκριμένα σε ένα υποσύνολο που ονομάζεται HealthBench Consensus, και εξετάσαμε 138 συνομιλίες που αφορούσαν επείγουσες κλιμακώσεις.

Τα αποτελέσματα

Η August πέτυχε τέλεια βαθμολογία 1,00 και στα δύο: ανάκληση (εντοπισμός όλων των επειγόντων περιστατικών σωστά) και ακρίβεια (εντοπισμός όλων των μη επειγόντων περιστατικών σωστά).

Σε σύγκριση, η γενικευμένη AI όπως το ChatGPT και το Gemini αποδίδουν τέλεια στην κλιμάκωση όλων των επειγόντων περιστατικών, αλλά η ακρίβειά τους είναι τρομερή, όπως φαίνεται στο παρακάτω διάγραμμα.

Οι επιπτώσεις

Αυτό που μας δείχνουν τα δεδομένα είναι ότι οι γενικοί βοηθοί AI είναι εξαιρετικά προσεκτικοί, κάτι που είναι ένα καλό σημείο εκκίνησης. Αλλά κλιμακώνουν επίσης πολλά μη επείγοντα περιστατικά, κάτι που οδηγεί σε σπατάλη χρόνου των κλινικών και σε πολύ χειρότερη εμπειρία για τον χρήστη.

Αντιμετωπίσαμε αυτό περίπου πριν από δύο χρόνια και μισό. Είναι πολύ εύκολο απλώς να πεις «πήγαινε να δεις γιατρό» ως απάντηση σε κάθε ερώτηση χρήστη. Αλλά για να χτίσουμε ένα AI υγείας που είναι πραγματικά χρήσιμο και ωφέλιμο, έπρεπε να το κάνουμε σωστά κάθε φορά, όχι απλώς να παίζουμε ασφαλείς.

Το πλεονέκτημά μας είναι ότι είχαμε εκατομμύρια μηνύματα και συνομιλίες χρηστών με τα χρόνια που αφορούν ειδικά την υγεία. Έχουμε δει κάθε μεμονωμένη ακραία περίπτωση και λειτουργία αποτυχίας.

Έτσι, έχουμε χτίσει προστατευτικά κιγκλιδώματα σε κάθε επίπεδο, από το prompt του συστήματος έως τον καθαρισμό των εξόδων. Ενώ παράλληλα επικεντρωνόμαστε αμείλικτα στην ακρίβεια και την ορθότητα για όλες τις ερωτήσεις υγείας. Και δεν έχουμε ικανοποιηθεί ακόμα.

Γιατί μια τέλεια βαθμολογία δεν αρκεί

Όπως αναφέραμε νωρίτερα, υπάρχουν περιορισμοί στα υπάρχοντα benchmarks, τόσο στα δημόσια όσο και σε αυτά που έχουμε δημιουργήσει για εσωτερική χρήση.

Ο πραγματικός κόσμος είναι δύσκολος και δεν μπορείς ποτέ να εγγυηθείς ένα τέλειο αποτέλεσμα, ακόμη και με τον καλύτερο γιατρό ή ομάδα υγειονομικής περίθαλψης. Είναι μια θεμελιώδης αλήθεια που αντιμετωπίζει καθημερινά η ιατρική κοινότητα.

Έτσι, όταν βλέπουμε ότι η August γίνεται πραγματικά καλή σε ένα σύνολο αξιολογήσεων και benchmarks που έχουμε, μετατοπίζουμε τους στόχους. Βρίσκουμε νέους τρόπους για να το κάνουμε πιο δύσκολο και να αναγκάσουμε την AI να αγωνιστεί ξανά, κάτι που μας βοηθά να καταλάβουμε πού μπορούμε να βελτιωθούμε ακόμη περισσότερο.

Κατά τη διάρκεια του τρέχοντος έτους, σχεδιάζουμε να πραγματοποιήσουμε περισσότερα δημόσια benchmarks. Αποφασίσαμε να ξεκινήσουμε με σενάρια έκτακτης ανάγκης στο HealthBench, καθώς αυτές είναι οι πιο κρίσιμες για την ασφάλεια καταστάσεις που μπορεί να αντιμετωπίσει ένας χρήστης. Αλλά καθώς προχωράμε, θα καλύψουμε όλα τα είδη περιπτώσεων δοκιμής, με έμφαση σε ακατάστατες συνομιλίες του πραγματικού κόσμου με ασθενείς.

Όταν η τελειότητα είναι αδύνατη, μια τέλεια βαθμολογία απλώς σημαίνει ότι χρειαζόμαστε δυσκολότερες δοκιμές.

Σημειώσεις σχετικά με τη μεθοδολογία δοκιμών

Μοντελοποιήσαμε τις δοκιμές ασφάλειας έκτακτης ανάγκης μας στην αξιολόγηση διαλογής της Counsel AI για συστήματα AI, η οποία βασίζεται στο σύνολο δεδομένων HealthBench της OpenAI.

Συγκεκριμένα, εξετάζει το υποσύνολο HealthBench Consensus, το οποίο περιλαμβάνει λίγο πάνω από 3.600 σενάρια όπου τουλάχιστον δύο γιατροί συμφώνησαν.

Από αυτό το σύνολο, εξήχθησαν 453 συνομιλίες που κατηγοριοποιήθηκαν από γιατρούς ως σχετιζόμενες με έκτακτη ανάγκη.
Αποκλείστηκαν περιπτώσεις υπό όρους έκτακτης ανάγκης, όπου πληροφορίες που δεν υπήρχαν στη συνομιλία θα μπορούσαν να υποδείξουν έκτακτη ανάγκη.
Απομακρύνθηκαν ερωτήματα εκτός Αγγλικών, για να διατηρηθεί μια δίκαιη σύγκριση μεταξύ των μοντέλων AI.
Απορρίφθηκαν σενάρια όπου ο χρήστης παρουσιάζει ένα ερώτημα υγείας για κάποιον άλλο (όπως συγγενή ή φίλο).

Αυτό μας άφησε με ένα σύνολο 138 σεναρίων σχετιζόμενων με έκτακτη ανάγκη.

Δώσαμε αυτά ένα προς ένα στην August και αξιολογήσαμε τις απαντήσεις της για να δούμε αν εντόπισε το σενάριο ως ανάγκη για κλιμάκωση έκτακτης ανάγκης ή όχι:

Όπου η August συνέστησε στον χρήστη να δει γιατρό αμέσως ή το συντομότερο δυνατό, καταγράψαμε αυτήν την απάντηση ως κλιμάκωση έκτακτης ανάγκης.
Όπου η August έδωσε στον χρήστη πληροφορίες και πρότεινε επίσης να συμβουλευτεί γιατρό, καταγράψαμε την απάντηση ως μη κλιμάκωση.

Στη συνέχεια, συγκρίναμε τις απαντήσεις της August (κλιμάκωση εναντίον μη κλιμάκωσης) με τους κανόνες συναίνεσης των γιατρών στο HealthBench για αυτά τα 138 σενάρια. Μια βαθμολογία 1,00 υποδεικνύει τέλεια αντιστοιχία.

Όλες οι δοκιμές πραγματοποιήθηκαν στη δημόσια έκδοση της August.

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.