Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
Η ασφάλεια είναι ίσως ο πιο σημαντικός παράγοντας στην υγειονομική περίθαλψη. Ένας βοηθός AI ή ένας πράκτορας στον οποίο ο χρήστης δεν μπορεί να εμπιστευτεί ότι είναι 100% ασφαλής είναι πραγματικά επικίνδυνος.
Είναι κάτι για το οποίο ήμασταν πολύ συνειδητοί από την αρχή στην August AI. Η υγεία ενός ατόμου δεν πρέπει ποτέ να λαμβάνεται ελαφρά. Και με την πάροδο των ετών, βελτιώναμε συνεχώς την απόδοση της August στην ασφάλεια και την ακρίβεια.
Αλλά το να λέμε αυτό δεν αρκεί, χρειαζόμαστε μια αντικειμενική μέτρηση.
Δεν υπάρχουν πολλά καλά δημόσια benchmarks για τη δοκιμή των δυνατοτήτων της AI στην υγειονομική περίθαλψη, και ακόμη λιγότερα που μπορούν να χρησιμοποιηθούν για την επίδειξη της ασφάλειας ειδικά.
Η καλύτερη επιλογή είναι το HealthBench, το οποίο λάνσαρε η OpenAI τον Μάιο του περασμένου έτους. Είναι ένα σύνολο δεδομένων 5.000 συνομιλιών υγείας με το οποίο μπορούμε να δοκιμάσουμε τους βοηθούς AI. Έχει τους περιορισμούς του, στους οποίους θα φτάσουμε σε λίγο. Εστιάσαμε συγκεκριμένα σε ένα υποσύνολο που ονομάζεται HealthBench Consensus, και εξετάσαμε 138 συνομιλίες που αφορούσαν επείγουσες κλιμακώσεις.
Η August πέτυχε τέλεια βαθμολογία 1,00 και στα δύο: ανάκληση (εντοπισμός όλων των επειγόντων περιστατικών σωστά) και ακρίβεια (εντοπισμός όλων των μη επειγόντων περιστατικών σωστά).
Σε σύγκριση, η γενικευμένη AI όπως το ChatGPT και το Gemini αποδίδουν τέλεια στην κλιμάκωση όλων των επειγόντων περιστατικών, αλλά η ακρίβειά τους είναι τρομερή, όπως φαίνεται στο παρακάτω διάγραμμα.

Αυτό που μας δείχνουν τα δεδομένα είναι ότι οι γενικοί βοηθοί AI είναι εξαιρετικά προσεκτικοί, κάτι που είναι ένα καλό σημείο εκκίνησης. Αλλά κλιμακώνουν επίσης πολλά μη επείγοντα περιστατικά, κάτι που οδηγεί σε σπατάλη χρόνου των κλινικών και σε πολύ χειρότερη εμπειρία για τον χρήστη.
Αντιμετωπίσαμε αυτό περίπου πριν από δύο χρόνια και μισό. Είναι πολύ εύκολο απλώς να πεις «πήγαινε να δεις γιατρό» ως απάντηση σε κάθε ερώτηση χρήστη. Αλλά για να χτίσουμε ένα AI υγείας που είναι πραγματικά χρήσιμο και ωφέλιμο, έπρεπε να το κάνουμε σωστά κάθε φορά, όχι απλώς να παίζουμε ασφαλείς.
Το πλεονέκτημά μας είναι ότι είχαμε εκατομμύρια μηνύματα και συνομιλίες χρηστών με τα χρόνια που αφορούν ειδικά την υγεία. Έχουμε δει κάθε μεμονωμένη ακραία περίπτωση και λειτουργία αποτυχίας.
Έτσι, έχουμε χτίσει προστατευτικά κιγκλιδώματα σε κάθε επίπεδο, από το prompt του συστήματος έως τον καθαρισμό των εξόδων. Ενώ παράλληλα επικεντρωνόμαστε αμείλικτα στην ακρίβεια και την ορθότητα για όλες τις ερωτήσεις υγείας. Και δεν έχουμε ικανοποιηθεί ακόμα.
Όπως αναφέραμε νωρίτερα, υπάρχουν περιορισμοί στα υπάρχοντα benchmarks, τόσο στα δημόσια όσο και σε αυτά που έχουμε δημιουργήσει για εσωτερική χρήση.
Ο πραγματικός κόσμος είναι δύσκολος και δεν μπορείς ποτέ να εγγυηθείς ένα τέλειο αποτέλεσμα, ακόμη και με τον καλύτερο γιατρό ή ομάδα υγειονομικής περίθαλψης. Είναι μια θεμελιώδης αλήθεια που αντιμετωπίζει καθημερινά η ιατρική κοινότητα.
Έτσι, όταν βλέπουμε ότι η August γίνεται πραγματικά καλή σε ένα σύνολο αξιολογήσεων και benchmarks που έχουμε, μετατοπίζουμε τους στόχους. Βρίσκουμε νέους τρόπους για να το κάνουμε πιο δύσκολο και να αναγκάσουμε την AI να αγωνιστεί ξανά, κάτι που μας βοηθά να καταλάβουμε πού μπορούμε να βελτιωθούμε ακόμη περισσότερο.
Κατά τη διάρκεια του τρέχοντος έτους, σχεδιάζουμε να πραγματοποιήσουμε περισσότερα δημόσια benchmarks. Αποφασίσαμε να ξεκινήσουμε με σενάρια έκτακτης ανάγκης στο HealthBench, καθώς αυτές είναι οι πιο κρίσιμες για την ασφάλεια καταστάσεις που μπορεί να αντιμετωπίσει ένας χρήστης. Αλλά καθώς προχωράμε, θα καλύψουμε όλα τα είδη περιπτώσεων δοκιμής, με έμφαση σε ακατάστατες συνομιλίες του πραγματικού κόσμου με ασθενείς.
Όταν η τελειότητα είναι αδύνατη, μια τέλεια βαθμολογία απλώς σημαίνει ότι χρειαζόμαστε δυσκολότερες δοκιμές.
Μοντελοποιήσαμε τις δοκιμές ασφάλειας έκτακτης ανάγκης μας στην αξιολόγηση διαλογής της Counsel AI για συστήματα AI, η οποία βασίζεται στο σύνολο δεδομένων HealthBench της OpenAI.
Συγκεκριμένα, εξετάζει το υποσύνολο HealthBench Consensus, το οποίο περιλαμβάνει λίγο πάνω από 3.600 σενάρια όπου τουλάχιστον δύο γιατροί συμφώνησαν.
Αυτό μας άφησε με ένα σύνολο 138 σεναρίων σχετιζόμενων με έκτακτη ανάγκη.
Δώσαμε αυτά ένα προς ένα στην August και αξιολογήσαμε τις απαντήσεις της για να δούμε αν εντόπισε το σενάριο ως ανάγκη για κλιμάκωση έκτακτης ανάγκης ή όχι:
Στη συνέχεια, συγκρίναμε τις απαντήσεις της August (κλιμάκωση εναντίον μη κλιμάκωσης) με τους κανόνες συναίνεσης των γιατρών στο HealthBench για αυτά τα 138 σενάρια. Μια βαθμολογία 1,00 υποδεικνύει τέλεια αντιστοιχία.
Όλες οι δοκιμές πραγματοποιήθηκαν στη δημόσια έκδοση της August.
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.