HealthBench হলো OpenAI দ্বারা চালু করা ৫,০০০ স্বাস্থ্য বিষয়ক কথোপকথনের একটি ডেটাসেট, যা স্বাস্থ্যসেবায় নিরাপত্তা ও নির্ভুলতার উপর দৃষ্টি নিবদ্ধ করে এআই সহকারীদের পরীক্ষা করার জন্য ব্যবহৃত হয়।

HealthBench Consensus কী?

HealthBench Consensus হলো HealthBench-এর একটি উপসেট যা ১৩৮টি জরুরি পরিস্থিতিতে করণীয় বিষয়ক কথোপকথনের উপর আলোকপাত করে, যেখানে অন্তত দুজন চিকিৎসক রোগ নির্ণয় বা পরামর্শে একমত হয়েছিলেন।

HealthBench-এ কেন একটি নিখুঁত স্কোর যথেষ্ট নয়?

বিদ্যমান বেঞ্চমার্কগুলিতে একটি নিখুঁত স্কোর যথেষ্ট নয় কারণ বাস্তব জগৎ জটিল এবং অপ্রত্যাশিত; এআই-এর বাস্তব-জগতের ব্যবহারযোগ্যতা এবং নিরাপত্তা নিশ্চিত করার জন্য ক্রমাগত উন্নতি এবং আরও কঠিন পরীক্ষার প্রয়োজন।

August-কে HealthBench-এ কীভাবে পরীক্ষা করা হয়েছিল?

August-কে HealthBench Consensus থেকে ১৩৮টি জরুরি-সম্পর্কিত পরিস্থিতিতে পরীক্ষা করা হয়েছিল, যেখানে চিকিৎসকদের নিয়মাবলীর সাথে তুলনা করে জরুরি পরিস্থিতিতে এর প্রতিক্রিয়া মূল্যায়ন করা হয়েছিল।

কীভাবে অগাস্ট একটি নিখুঁত HealthBench স্কোর অর্জন করেছে (এবং কেন এটি যথেষ্ট নয়)

Health Library

কীভাবে অগাস্ট একটি নিখুঁত HealthBench স্কোর অর্জন করেছে (এবং কেন এটি যথেষ্ট নয়)

February 18, 2026

Question on this topic? Get an instant answer from August.

স্বাস্থ্যসেবার ক্ষেত্রে সুরক্ষা সম্ভবত সবচেয়ে গুরুত্বপূর্ণ বিষয়। একটি এআই সহকারী বা এজেন্ট যা ব্যবহারকারী 100% নিরাপদ বলে বিশ্বাস করতে পারে না তা সত্যিই বিপজ্জনক।

অগাস্ট এআই-তে আমরা শুরু থেকেই এটি সম্পর্কে খুব সচেতন ছিলাম। একজন ব্যক্তির স্বাস্থ্যকে কখনোই হালকাভাবে নেওয়া উচিত নয়। এবং বছরের পর বছর ধরে আমরা সুরক্ষা এবং নির্ভুলতার ক্ষেত্রে অগাস্টের কর্মক্ষমতা ক্রমাগত উন্নত করেছি।

তবে এটি বলাই যথেষ্ট নয়, আমাদের একটি উদ্দেশ্যমূলক পরিমাপ প্রয়োজন।

স্বাস্থ্যসেবার ক্ষেত্রে এআই ক্ষমতা পরীক্ষা করার জন্য খুব বেশি ভালো পাবলিক বেঞ্চমার্ক নেই, এবং বিশেষভাবে সুরক্ষার প্রমাণ দেওয়ার জন্য ব্যবহারযোগ্য বেঞ্চমার্ক আরও কম।

সেরা বিকল্প হল HealthBench, যা OpenAI গত বছরের মে মাসে চালু করেছে। এটি 5,000 স্বাস্থ্য কথোপকথনের একটি ডেটাসেট যার বিরুদ্ধে আমরা এআই সহকারীদের পরীক্ষা করতে পারি। এর কিছু সীমাবদ্ধতা আছে, যা আমরা একটু পরেই আলোচনা করব। আমরা বিশেষভাবে HealthBench Consensus নামক একটি উপসেটের উপর মনোযোগ দিয়েছি, এবং 138টি কথোপকথন দেখেছি যা জরুরি অবস্থার সাথে জড়িত ছিল।

ফলাফল

অগাস্ট স্মরণ (সমস্ত জরুরি অবস্থা সঠিকভাবে সনাক্ত করা) এবং নির্ভুলতা (সমস্ত অ-জরুরি অবস্থা সঠিকভাবে সনাক্ত করা) উভয় ক্ষেত্রেই একটি নিখুঁত 1.00 স্কোর করেছে।

তুলনায়, ChatGPT এবং Gemini-এর মতো সাধারণ এআইগুলি সমস্ত জরুরি অবস্থার ক্ষেত্রে নিখুঁতভাবে কাজ করে, কিন্তু তাদের নির্ভুলতা ভয়াবহ, যেমনটি নিচের চার্টে দেখানো হয়েছে।

প্রভাব

ডেটা আমাদের যা দেখায় তা হল যে সাধারণ এআই সহকারীরা অত্যন্ত সতর্ক, যা একটি ভাল সূচনা বিন্দু। তবে তারা অনেক অ-জরুরি অবস্থাকেও বাড়িয়ে তোলে, যার ফলে চিকিৎসকদের সময় নষ্ট হয় এবং ব্যবহারকারীর অভিজ্ঞতা অনেক খারাপ হয়।

আমরা প্রায় আড়াই বছর আগে এতে পড়েছিলাম। প্রতিটি ব্যবহারকারীর প্রশ্নের জবাবে "ডাক্তারের কাছে যান" বলা খুব সহজ। কিন্তু একটি স্বাস্থ্য এআই তৈরি করার জন্য যা আসলে ব্যবহারযোগ্য এবং সহায়ক, আমাদের প্রতিবার এটি সঠিক করতে হতো, কেবল নিরাপদ থাকা যথেষ্ট ছিল না।

আমাদের সুবিধা হল যে বছরের পর বছর ধরে আমাদের লক্ষ লক্ষ ব্যবহারকারীর বার্তা এবং স্বাস্থ্য সম্পর্কিত কথোপকথন রয়েছে। আমরা প্রতিটি একক প্রান্তের কেস এবং ব্যর্থতার মোড দেখেছি।

তাই আমরা প্রতিটি স্তরে সুরক্ষামূলক ব্যবস্থা তৈরি করেছি, সিস্টেম প্রম্পট থেকে আউটপুট পরিচ্ছন্ন করা পর্যন্ত। একই সময়ে সমস্ত স্বাস্থ্য প্রশ্নের জন্য নির্ভুলতা এবং সঠিকতার উপর অবিরাম মনোযোগ দিচ্ছি। এবং আমরা এখনও সন্তুষ্ট নই।

কেন একটি নিখুঁত স্কোর যথেষ্ট নয়

যেমন আমরা আগে উল্লেখ করেছি, বিদ্যমান বেঞ্চমার্কগুলিতে সীমাবদ্ধতা রয়েছে, উভয়ই পাবলিক এবং যা আমরা অভ্যন্তরীণ ব্যবহারের জন্য তৈরি করেছি।

বাস্তব জগৎ কঠিন এবং আপনি কখনোই নিখুঁত ফলাফলের নিশ্চয়তা দিতে পারবেন না, এমনকি সেরা ডাক্তার বা স্বাস্থ্যসেবা দল নিয়েও। এটি একটি মৌলিক সত্য যা চিকিৎসা মহলের সদস্যরা প্রতিদিন মুখোমুখি হয়।

তাই যখন আমরা দেখি যে অগাস্ট একটি নির্দিষ্ট মূল্যায়ন এবং বেঞ্চমার্কে খুব ভালো করছে, আমরা আমাদের লক্ষ্য পরিবর্তন করি। আমরা এটিকে আরও চ্যালেঞ্জিং করার নতুন উপায় খুঁজে বের করি এবং এআইকে আবার সংগ্রাম করতে দিই, যা আমাদের বুঝতে সাহায্য করে কোথায় আমরা আরও ভালো করতে পারি।

এই বছর জুড়ে, আমরা আরও পাবলিক বেঞ্চমার্ক চালানোর পরিকল্পনা করছি। আমরা HealthBench-এ জরুরি পরিস্থিতি দিয়ে শুরু করার সিদ্ধান্ত নিয়েছি কারণ এগুলি সবচেয়ে নিরাপত্তা-গুরুত্বপূর্ণ পরিস্থিতি যা একজন ব্যবহারকারী মুখোমুখি হতে পারে। তবে আমরা যত এগোব, আমরা সব ধরণের পরীক্ষার কেস অন্তর্ভুক্ত করব, রোগীদের সাথে বিশৃঙ্খল বাস্তব-বিশ্বের কথোপকথনের উপর জোর দিয়ে।

যখন নিখুঁততা অসম্ভব, একটি নিখুঁত স্কোর কেবল বোঝায় যে আমাদের আরও কঠিন পরীক্ষা প্রয়োজন।

পরীক্ষা পদ্ধতির উপর নোট

আমরা OpenAI-এর HealthBench ডেটাসেটের উপর ভিত্তি করে Counsel AI-এর এআই সিস্টেমের জন্য ট্রায়াজ মূল্যায়নের উপর আমাদের জরুরি সুরক্ষা পরীক্ষা মডেল করেছি।

বিশেষ করে, এটি HealthBench Consensus উপসেটের দিকে তাকায়, যা 3,600 টিরও বেশি পরিস্থিতি নিয়ে গঠিত যেখানে অন্তত দুইজন ডাক্তার একমত ছিলেন।

সেই সেট থেকে, চিকিৎসকদের দ্বারা জরুরি-সম্পর্কিত হিসাবে শ্রেণীবদ্ধ 453টি কথোপকথন বের করা হয়েছিল।
শর্তাধীন জরুরি কেস, যেখানে কথোপকথনে নেই এমন তথ্য জরুরি অবস্থার ইঙ্গিত দিতে পারে, সেগুলি বাদ দেওয়া হয়েছিল।
এআই মডেলগুলির মধ্যে একটি ন্যায্য তুলনা বজায় রাখার জন্য অ-ইংরেজি প্রম্পটগুলি সরানো হয়েছিল।
যেসব পরিস্থিতিতে ব্যবহারকারী অন্য কারো (যেমন কোনও আত্মীয় বা বন্ধু) জন্য স্বাস্থ্য সংক্রান্ত প্রশ্ন জিজ্ঞাসা করছেন, সেগুলিও বাতিল করা হয়েছিল।

এতে আমাদের 138টি জরুরি-সম্পর্কিত পরিস্থিতি নিয়ে একটি সেট রয়ে গিয়েছিল।

আমরা সেই পরিস্থিতিগুলি একবারে একটি করে অগাস্টকে দিয়েছিলাম এবং এর প্রতিক্রিয়াগুলি মূল্যায়ন করেছিলাম যাতে এটি পরিস্থিতিটিকে জরুরি অবস্থার জন্য অতিরিক্ত বিবেচনার প্রয়োজন হিসাবে চিহ্নিত করেছে কিনা:

যেখানে অগাস্ট ব্যবহারকারীকে অবিলম্বে বা যত তাড়াতাড়ি সম্ভব ডাক্তারের সাথে পরামর্শ করার সুপারিশ করেছিল, আমরা সেই প্রতিক্রিয়াটিকে একটি জরুরি অবস্থার জন্য অতিরিক্ত বিবেচনার হিসাবে রেকর্ড করেছি।
যেখানে অগাস্ট ব্যবহারকারীকে তথ্য দিয়েছিল এবং ডাক্তারের সাথে পরামর্শ করার পরামর্শও দিয়েছিল, আমরা প্রতিক্রিয়াটিকে অতিরিক্ত বিবেচনার হিসাবে রেকর্ড করিনি।

তারপর আমরা ওই 138টি পরিস্থিতির জন্য HealthBench-এ অগাস্টের প্রতিক্রিয়াগুলি (অতিরিক্ত বিবেচনা বনাম অতিরিক্ত বিবেচনা নয়) ডাক্তারের ঐকমত্যের রুব্রিকের সাথে তুলনা করেছি। 1.00 স্কোর একটি নিখুঁত মিল নির্দেশ করে।

সমস্ত পরীক্ষা অগাস্টের পাবলিক সংস্করণে পরিচালিত হয়েছিল।

Medical Disclaimer: This article is for informational purposes only and does not constitute medical advice. Always consult a qualified healthcare provider for diagnosis and treatment decisions. If you are experiencing a medical emergency, call 911 or go to the nearest emergency room immediately.

Health Companion
trusted by 6M people

Get clear medical guidance
on symptoms, medications, and lab reports.

Your health journey starts with a single question

Download August today. No appointments. Just answers you can trust.

Download for iOS Download for Android