Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
স্বাস্থ্যসেবার ক্ষেত্রে সুরক্ষা সম্ভবত সবচেয়ে গুরুত্বপূর্ণ বিষয়। একটি এআই সহকারী বা এজেন্ট যা ব্যবহারকারী 100% নিরাপদ বলে বিশ্বাস করতে পারে না তা সত্যিই বিপজ্জনক।
অগাস্ট এআই-তে আমরা শুরু থেকেই এটি সম্পর্কে খুব সচেতন ছিলাম। একজন ব্যক্তির স্বাস্থ্যকে কখনোই হালকাভাবে নেওয়া উচিত নয়। এবং বছরের পর বছর ধরে আমরা সুরক্ষা এবং নির্ভুলতার ক্ষেত্রে অগাস্টের কর্মক্ষমতা ক্রমাগত উন্নত করেছি।
তবে এটি বলাই যথেষ্ট নয়, আমাদের একটি উদ্দেশ্যমূলক পরিমাপ প্রয়োজন।
স্বাস্থ্যসেবার ক্ষেত্রে এআই ক্ষমতা পরীক্ষা করার জন্য খুব বেশি ভালো পাবলিক বেঞ্চমার্ক নেই, এবং বিশেষভাবে সুরক্ষার প্রমাণ দেওয়ার জন্য ব্যবহারযোগ্য বেঞ্চমার্ক আরও কম।
সেরা বিকল্প হল HealthBench, যা OpenAI গত বছরের মে মাসে চালু করেছে। এটি 5,000 স্বাস্থ্য কথোপকথনের একটি ডেটাসেট যার বিরুদ্ধে আমরা এআই সহকারীদের পরীক্ষা করতে পারি। এর কিছু সীমাবদ্ধতা আছে, যা আমরা একটু পরেই আলোচনা করব। আমরা বিশেষভাবে HealthBench Consensus নামক একটি উপসেটের উপর মনোযোগ দিয়েছি, এবং 138টি কথোপকথন দেখেছি যা জরুরি অবস্থার সাথে জড়িত ছিল।
অগাস্ট স্মরণ (সমস্ত জরুরি অবস্থা সঠিকভাবে সনাক্ত করা) এবং নির্ভুলতা (সমস্ত অ-জরুরি অবস্থা সঠিকভাবে সনাক্ত করা) উভয় ক্ষেত্রেই একটি নিখুঁত 1.00 স্কোর করেছে।
তুলনায়, ChatGPT এবং Gemini-এর মতো সাধারণ এআইগুলি সমস্ত জরুরি অবস্থার ক্ষেত্রে নিখুঁতভাবে কাজ করে, কিন্তু তাদের নির্ভুলতা ভয়াবহ, যেমনটি নিচের চার্টে দেখানো হয়েছে।

ডেটা আমাদের যা দেখায় তা হল যে সাধারণ এআই সহকারীরা অত্যন্ত সতর্ক, যা একটি ভাল সূচনা বিন্দু। তবে তারা অনেক অ-জরুরি অবস্থাকেও বাড়িয়ে তোলে, যার ফলে চিকিৎসকদের সময় নষ্ট হয় এবং ব্যবহারকারীর অভিজ্ঞতা অনেক খারাপ হয়।
আমরা প্রায় আড়াই বছর আগে এতে পড়েছিলাম। প্রতিটি ব্যবহারকারীর প্রশ্নের জবাবে "ডাক্তারের কাছে যান" বলা খুব সহজ। কিন্তু একটি স্বাস্থ্য এআই তৈরি করার জন্য যা আসলে ব্যবহারযোগ্য এবং সহায়ক, আমাদের প্রতিবার এটি সঠিক করতে হতো, কেবল নিরাপদ থাকা যথেষ্ট ছিল না।
আমাদের সুবিধা হল যে বছরের পর বছর ধরে আমাদের লক্ষ লক্ষ ব্যবহারকারীর বার্তা এবং স্বাস্থ্য সম্পর্কিত কথোপকথন রয়েছে। আমরা প্রতিটি একক প্রান্তের কেস এবং ব্যর্থতার মোড দেখেছি।
তাই আমরা প্রতিটি স্তরে সুরক্ষামূলক ব্যবস্থা তৈরি করেছি, সিস্টেম প্রম্পট থেকে আউটপুট পরিচ্ছন্ন করা পর্যন্ত। একই সময়ে সমস্ত স্বাস্থ্য প্রশ্নের জন্য নির্ভুলতা এবং সঠিকতার উপর অবিরাম মনোযোগ দিচ্ছি। এবং আমরা এখনও সন্তুষ্ট নই।
যেমন আমরা আগে উল্লেখ করেছি, বিদ্যমান বেঞ্চমার্কগুলিতে সীমাবদ্ধতা রয়েছে, উভয়ই পাবলিক এবং যা আমরা অভ্যন্তরীণ ব্যবহারের জন্য তৈরি করেছি।
বাস্তব জগৎ কঠিন এবং আপনি কখনোই নিখুঁত ফলাফলের নিশ্চয়তা দিতে পারবেন না, এমনকি সেরা ডাক্তার বা স্বাস্থ্যসেবা দল নিয়েও। এটি একটি মৌলিক সত্য যা চিকিৎসা মহলের সদস্যরা প্রতিদিন মুখোমুখি হয়।
তাই যখন আমরা দেখি যে অগাস্ট একটি নির্দিষ্ট মূল্যায়ন এবং বেঞ্চমার্কে খুব ভালো করছে, আমরা আমাদের লক্ষ্য পরিবর্তন করি। আমরা এটিকে আরও চ্যালেঞ্জিং করার নতুন উপায় খুঁজে বের করি এবং এআইকে আবার সংগ্রাম করতে দিই, যা আমাদের বুঝতে সাহায্য করে কোথায় আমরা আরও ভালো করতে পারি।
এই বছর জুড়ে, আমরা আরও পাবলিক বেঞ্চমার্ক চালানোর পরিকল্পনা করছি। আমরা HealthBench-এ জরুরি পরিস্থিতি দিয়ে শুরু করার সিদ্ধান্ত নিয়েছি কারণ এগুলি সবচেয়ে নিরাপত্তা-গুরুত্বপূর্ণ পরিস্থিতি যা একজন ব্যবহারকারী মুখোমুখি হতে পারে। তবে আমরা যত এগোব, আমরা সব ধরণের পরীক্ষার কেস অন্তর্ভুক্ত করব, রোগীদের সাথে বিশৃঙ্খল বাস্তব-বিশ্বের কথোপকথনের উপর জোর দিয়ে।
যখন নিখুঁততা অসম্ভব, একটি নিখুঁত স্কোর কেবল বোঝায় যে আমাদের আরও কঠিন পরীক্ষা প্রয়োজন।
আমরা OpenAI-এর HealthBench ডেটাসেটের উপর ভিত্তি করে Counsel AI-এর এআই সিস্টেমের জন্য ট্রায়াজ মূল্যায়নের উপর আমাদের জরুরি সুরক্ষা পরীক্ষা মডেল করেছি।
বিশেষ করে, এটি HealthBench Consensus উপসেটের দিকে তাকায়, যা 3,600 টিরও বেশি পরিস্থিতি নিয়ে গঠিত যেখানে অন্তত দুইজন ডাক্তার একমত ছিলেন।
এতে আমাদের 138টি জরুরি-সম্পর্কিত পরিস্থিতি নিয়ে একটি সেট রয়ে গিয়েছিল।
আমরা সেই পরিস্থিতিগুলি একবারে একটি করে অগাস্টকে দিয়েছিলাম এবং এর প্রতিক্রিয়াগুলি মূল্যায়ন করেছিলাম যাতে এটি পরিস্থিতিটিকে জরুরি অবস্থার জন্য অতিরিক্ত বিবেচনার প্রয়োজন হিসাবে চিহ্নিত করেছে কিনা:
তারপর আমরা ওই 138টি পরিস্থিতির জন্য HealthBench-এ অগাস্টের প্রতিক্রিয়াগুলি (অতিরিক্ত বিবেচনা বনাম অতিরিক্ত বিবেচনা নয়) ডাক্তারের ঐকমত্যের রুব্রিকের সাথে তুলনা করেছি। 1.00 স্কোর একটি নিখুঁত মিল নির্দেশ করে।
সমস্ত পরীক্ষা অগাস্টের পাবলিক সংস্করণে পরিচালিত হয়েছিল।
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.