Health Library Logo

Health Library

Health Library

কীভাবে অগাস্ট একটি নিখুঁত HealthBench স্কোর অর্জন করেছে (এবং কেন এটি যথেষ্ট নয়)

February 18, 2026


Question on this topic? Get an instant answer from August.

স্বাস্থ্যসেবার ক্ষেত্রে সুরক্ষা সম্ভবত সবচেয়ে গুরুত্বপূর্ণ বিষয়। একটি এআই সহকারী বা এজেন্ট যা ব্যবহারকারী 100% নিরাপদ বলে বিশ্বাস করতে পারে না তা সত্যিই বিপজ্জনক।

অগাস্ট এআই-তে আমরা শুরু থেকেই এটি সম্পর্কে খুব সচেতন ছিলাম। একজন ব্যক্তির স্বাস্থ্যকে কখনোই হালকাভাবে নেওয়া উচিত নয়। এবং বছরের পর বছর ধরে আমরা সুরক্ষা এবং নির্ভুলতার ক্ষেত্রে অগাস্টের কর্মক্ষমতা ক্রমাগত উন্নত করেছি।

তবে এটি বলাই যথেষ্ট নয়, আমাদের একটি উদ্দেশ্যমূলক পরিমাপ প্রয়োজন।

স্বাস্থ্যসেবার ক্ষেত্রে এআই ক্ষমতা পরীক্ষা করার জন্য খুব বেশি ভালো পাবলিক বেঞ্চমার্ক নেই, এবং বিশেষভাবে সুরক্ষার প্রমাণ দেওয়ার জন্য ব্যবহারযোগ্য বেঞ্চমার্ক আরও কম।

সেরা বিকল্প হল HealthBench, যা OpenAI গত বছরের মে মাসে চালু করেছে। এটি 5,000 স্বাস্থ্য কথোপকথনের একটি ডেটাসেট যার বিরুদ্ধে আমরা এআই সহকারীদের পরীক্ষা করতে পারি। এর কিছু সীমাবদ্ধতা আছে, যা আমরা একটু পরেই আলোচনা করব। আমরা বিশেষভাবে HealthBench Consensus নামক একটি উপসেটের উপর মনোযোগ দিয়েছি, এবং 138টি কথোপকথন দেখেছি যা জরুরি অবস্থার সাথে জড়িত ছিল।

ফলাফল

অগাস্ট স্মরণ (সমস্ত জরুরি অবস্থা সঠিকভাবে সনাক্ত করা) এবং নির্ভুলতা (সমস্ত অ-জরুরি অবস্থা সঠিকভাবে সনাক্ত করা) উভয় ক্ষেত্রেই একটি নিখুঁত 1.00 স্কোর করেছে।

তুলনায়, ChatGPT এবং Gemini-এর মতো সাধারণ এআইগুলি সমস্ত জরুরি অবস্থার ক্ষেত্রে নিখুঁতভাবে কাজ করে, কিন্তু তাদের নির্ভুলতা ভয়াবহ, যেমনটি নিচের চার্টে দেখানো হয়েছে।

Article image

প্রভাব

ডেটা আমাদের যা দেখায় তা হল যে সাধারণ এআই সহকারীরা অত্যন্ত সতর্ক, যা একটি ভাল সূচনা বিন্দু। তবে তারা অনেক অ-জরুরি অবস্থাকেও বাড়িয়ে তোলে, যার ফলে চিকিৎসকদের সময় নষ্ট হয় এবং ব্যবহারকারীর অভিজ্ঞতা অনেক খারাপ হয়।

আমরা প্রায় আড়াই বছর আগে এতে পড়েছিলাম। প্রতিটি ব্যবহারকারীর প্রশ্নের জবাবে "ডাক্তারের কাছে যান" বলা খুব সহজ। কিন্তু একটি স্বাস্থ্য এআই তৈরি করার জন্য যা আসলে ব্যবহারযোগ্য এবং সহায়ক, আমাদের প্রতিবার এটি সঠিক করতে হতো, কেবল নিরাপদ থাকা যথেষ্ট ছিল না।

আমাদের সুবিধা হল যে বছরের পর বছর ধরে আমাদের লক্ষ লক্ষ ব্যবহারকারীর বার্তা এবং স্বাস্থ্য সম্পর্কিত কথোপকথন রয়েছে। আমরা প্রতিটি একক প্রান্তের কেস এবং ব্যর্থতার মোড দেখেছি।

তাই আমরা প্রতিটি স্তরে সুরক্ষামূলক ব্যবস্থা তৈরি করেছি, সিস্টেম প্রম্পট থেকে আউটপুট পরিচ্ছন্ন করা পর্যন্ত। একই সময়ে সমস্ত স্বাস্থ্য প্রশ্নের জন্য নির্ভুলতা এবং সঠিকতার উপর অবিরাম মনোযোগ দিচ্ছি। এবং আমরা এখনও সন্তুষ্ট নই।

কেন একটি নিখুঁত স্কোর যথেষ্ট নয়

যেমন আমরা আগে উল্লেখ করেছি, বিদ্যমান বেঞ্চমার্কগুলিতে সীমাবদ্ধতা রয়েছে, উভয়ই পাবলিক এবং যা আমরা অভ্যন্তরীণ ব্যবহারের জন্য তৈরি করেছি।

বাস্তব জগৎ কঠিন এবং আপনি কখনোই নিখুঁত ফলাফলের নিশ্চয়তা দিতে পারবেন না, এমনকি সেরা ডাক্তার বা স্বাস্থ্যসেবা দল নিয়েও। এটি একটি মৌলিক সত্য যা চিকিৎসা মহলের সদস্যরা প্রতিদিন মুখোমুখি হয়।

তাই যখন আমরা দেখি যে অগাস্ট একটি নির্দিষ্ট মূল্যায়ন এবং বেঞ্চমার্কে খুব ভালো করছে, আমরা আমাদের লক্ষ্য পরিবর্তন করি। আমরা এটিকে আরও চ্যালেঞ্জিং করার নতুন উপায় খুঁজে বের করি এবং এআইকে আবার সংগ্রাম করতে দিই, যা আমাদের বুঝতে সাহায্য করে কোথায় আমরা আরও ভালো করতে পারি।

এই বছর জুড়ে, আমরা আরও পাবলিক বেঞ্চমার্ক চালানোর পরিকল্পনা করছি। আমরা HealthBench-এ জরুরি পরিস্থিতি দিয়ে শুরু করার সিদ্ধান্ত নিয়েছি কারণ এগুলি সবচেয়ে নিরাপত্তা-গুরুত্বপূর্ণ পরিস্থিতি যা একজন ব্যবহারকারী মুখোমুখি হতে পারে। তবে আমরা যত এগোব, আমরা সব ধরণের পরীক্ষার কেস অন্তর্ভুক্ত করব, রোগীদের সাথে বিশৃঙ্খল বাস্তব-বিশ্বের কথোপকথনের উপর জোর দিয়ে।

যখন নিখুঁততা অসম্ভব, একটি নিখুঁত স্কোর কেবল বোঝায় যে আমাদের আরও কঠিন পরীক্ষা প্রয়োজন।

পরীক্ষা পদ্ধতির উপর নোট

আমরা OpenAI-এর HealthBench ডেটাসেটের উপর ভিত্তি করে Counsel AI-এর এআই সিস্টেমের জন্য ট্রায়াজ মূল্যায়নের উপর আমাদের জরুরি সুরক্ষা পরীক্ষা মডেল করেছি।

বিশেষ করে, এটি HealthBench Consensus উপসেটের দিকে তাকায়, যা 3,600 টিরও বেশি পরিস্থিতি নিয়ে গঠিত যেখানে অন্তত দুইজন ডাক্তার একমত ছিলেন।

  • সেই সেট থেকে, চিকিৎসকদের দ্বারা জরুরি-সম্পর্কিত হিসাবে শ্রেণীবদ্ধ 453টি কথোপকথন বের করা হয়েছিল।
  • শর্তাধীন জরুরি কেস, যেখানে কথোপকথনে নেই এমন তথ্য জরুরি অবস্থার ইঙ্গিত দিতে পারে, সেগুলি বাদ দেওয়া হয়েছিল।
  • এআই মডেলগুলির মধ্যে একটি ন্যায্য তুলনা বজায় রাখার জন্য অ-ইংরেজি প্রম্পটগুলি সরানো হয়েছিল।
  • যেসব পরিস্থিতিতে ব্যবহারকারী অন্য কারো (যেমন কোনও আত্মীয় বা বন্ধু) জন্য স্বাস্থ্য সংক্রান্ত প্রশ্ন জিজ্ঞাসা করছেন, সেগুলিও বাতিল করা হয়েছিল।

এতে আমাদের 138টি জরুরি-সম্পর্কিত পরিস্থিতি নিয়ে একটি সেট রয়ে গিয়েছিল।

আমরা সেই পরিস্থিতিগুলি একবারে একটি করে অগাস্টকে দিয়েছিলাম এবং এর প্রতিক্রিয়াগুলি মূল্যায়ন করেছিলাম যাতে এটি পরিস্থিতিটিকে জরুরি অবস্থার জন্য অতিরিক্ত বিবেচনার প্রয়োজন হিসাবে চিহ্নিত করেছে কিনা:

  • যেখানে অগাস্ট ব্যবহারকারীকে অবিলম্বে বা যত তাড়াতাড়ি সম্ভব ডাক্তারের সাথে পরামর্শ করার সুপারিশ করেছিল, আমরা সেই প্রতিক্রিয়াটিকে একটি জরুরি অবস্থার জন্য অতিরিক্ত বিবেচনার হিসাবে রেকর্ড করেছি।
  • যেখানে অগাস্ট ব্যবহারকারীকে তথ্য দিয়েছিল এবং ডাক্তারের সাথে পরামর্শ করার পরামর্শও দিয়েছিল, আমরা প্রতিক্রিয়াটিকে অতিরিক্ত বিবেচনার হিসাবে রেকর্ড করিনি।

তারপর আমরা ওই 138টি পরিস্থিতির জন্য HealthBench-এ অগাস্টের প্রতিক্রিয়াগুলি (অতিরিক্ত বিবেচনা বনাম অতিরিক্ত বিবেচনা নয়) ডাক্তারের ঐকমত্যের রুব্রিকের সাথে তুলনা করেছি। 1.00 স্কোর একটি নিখুঁত মিল নির্দেশ করে।

সমস্ত পরীক্ষা অগাস্টের পাবলিক সংস্করণে পরিচালিত হয়েছিল।

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.

QR code to download August

download august