Health Library
February 18, 2026
Question on this topic? Get an instant answer from August.
ਸਿਹਤ ਸੰਭਾਲ ਵਿੱਚ ਸੁਰੱਖਿਆ ਸ਼ਾਇਦ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਕਾਰਕ ਹੈ। ਇੱਕ AI ਸਹਾਇਕ ਜਾਂ ਏਜੰਟ ਜਿਸ 'ਤੇ ਉਪਭੋਗਤਾ 100% ਸੁਰੱਖਿਅਤ ਰਹਿਣ ਦਾ ਭਰੋਸਾ ਨਹੀਂ ਕਰ ਸਕਦਾ, ਉਹ ਅਸਲ ਵਿੱਚ ਖਤਰਨਾਕ ਹੈ।
ਇਹ ਕੁਝ ਅਜਿਹਾ ਹੈ ਜਿਸ ਬਾਰੇ ਅਸੀਂ ਅਗਸਤ AI ਵਿੱਚ ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਬਹੁਤ ਸੁਚੇਤ ਰਹੇ ਹਾਂ। ਕਿਸੇ ਵਿਅਕਤੀ ਦੀ ਸਿਹਤ ਨੂੰ ਕਦੇ ਵੀ ਹਲਕੇ ਢੰਗ ਨਾਲ ਨਹੀਂ ਲਿਆ ਜਾਣਾ ਚਾਹੀਦਾ। ਅਤੇ ਸਾਲਾਂ ਦੌਰਾਨ ਅਸੀਂ ਸੁਰੱਖਿਆ ਅਤੇ ਸ਼ੁੱਧਤਾ 'ਤੇ ਅਗਸਤ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਲਗਾਤਾਰ ਸੁਧਾਰ ਕੀਤਾ ਹੈ।
ਪਰ ਇਹ ਕਹਿਣਾ ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ, ਸਾਨੂੰ ਇੱਕ ਉਦੇਸ਼ ਮਾਪ ਦੀ ਲੋੜ ਹੈ।
ਸਿਹਤ ਸੰਭਾਲ ਵਿੱਚ AI ਕਾਬਲੀਅਤਾਂ ਦੀ ਜਾਂਚ ਲਈ ਬਹੁਤ ਸਾਰੇ ਚੰਗੇ ਜਨਤਕ ਬੈਂਚਮਾਰਕ ਨਹੀਂ ਹਨ, ਅਤੇ ਇਸ ਤੋਂ ਵੀ ਘੱਟ ਹਨ ਜਿਨ੍ਹਾਂ ਦੀ ਵਰਤੋਂ ਖਾਸ ਤੌਰ 'ਤੇ ਸੁਰੱਖਿਆ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।
ਸਭ ਤੋਂ ਵਧੀਆ ਵਿਕਲਪ ਹੈ ਹੈਲਥਬੈਂਚ, ਜਿਸਨੂੰ OpenAI ਨੇ ਪਿਛਲੇ ਸਾਲ ਮਈ ਵਿੱਚ ਲਾਂਚ ਕੀਤਾ ਸੀ। ਇਹ 5,000 ਸਿਹਤ ਗੱਲਬਾਤਾਂ ਦਾ ਇੱਕ ਡੇਟਾਸੈੱਟ ਹੈ ਜਿਸਦੇ ਵਿਰੁੱਧ ਅਸੀਂ AI ਸਹਾਇਕਾਂ ਦੀ ਜਾਂਚ ਕਰ ਸਕਦੇ ਹਾਂ। ਇਸ ਦੀਆਂ ਆਪਣੀਆਂ ਸੀਮਾਵਾਂ ਹਨ, ਜਿਨ੍ਹਾਂ 'ਤੇ ਅਸੀਂ ਥੋੜੀ ਦੇਰ ਵਿੱਚ ਆਵਾਂਗੇ। ਅਸੀਂ ਖਾਸ ਤੌਰ 'ਤੇ ਹੈਲਥਬੈਂਚ ਕਨਸੈਂਸਸ ਨਾਮਕ ਇੱਕ ਉਪ-ਸਮੂਹ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ, ਅਤੇ 138 ਗੱਲਬਾਤਾਂ ਨੂੰ ਦੇਖਿਆ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਐਮਰਜੈਂਸੀ ਵਾਧੇ ਸ਼ਾਮਲ ਸਨ।
ਅਗਸਤ ਨੇ ਰੀਕਾਲ (ਸਾਰੀਆਂ ਐਮਰਜੈਂਸੀ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਪਛਾਣਨਾ) ਅਤੇ ਪ੍ਰੀਸੀਜ਼ਨ (ਸਾਰੀਆਂ ਗੈਰ-ਐਮਰਜੈਂਸੀ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਪਛਾਣਨਾ) ਦੋਵਾਂ 'ਤੇ ਸੰਪੂਰਨ 1.00 ਸਕੋਰ ਕੀਤਾ।
ਤੁਲਨਾ ਵਿੱਚ, ChatGPT ਅਤੇ Gemini ਵਰਗੇ ਜਨਰਲ AI ਸਾਰੀਆਂ ਐਮਰਜੈਂਸੀ ਨੂੰ ਵਧਾਉਣ 'ਤੇ ਸੰਪੂਰਨ ਹਨ, ਪਰ ਉਹਨਾਂ ਦੀ ਪ੍ਰੀਸੀਜ਼ਨ ਭਿਆਨਕ ਹੈ, ਜਿਵੇਂ ਕਿ ਹੇਠਾਂ ਦਿੱਤੇ ਚਾਰਟ ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ।

ਅੰਕੜੇ ਸਾਨੂੰ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ ਆਮ AI ਸਹਾਇਕ ਬਹੁਤ ਸਾਵਧਾਨ ਹਨ, ਜੋ ਕਿ ਇੱਕ ਵਧੀਆ ਸ਼ੁਰੂਆਤੀ ਬਿੰਦੂ ਹੈ। ਪਰ ਉਹ ਬਹੁਤ ਸਾਰੀਆਂ ਗੈਰ-ਐਮਰਜੈਂਸੀ ਨੂੰ ਵੀ ਵਧਾਉਂਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਡਾਕਟਰਾਂ ਦਾ ਸਮਾਂ ਬਰਬਾਦ ਹੁੰਦਾ ਹੈ ਅਤੇ ਉਪਭੋਗਤਾ ਲਈ ਬਹੁਤ ਬੁਰਾ ਅਨੁਭਵ ਹੁੰਦਾ ਹੈ।
ਅਸੀਂ ਲਗਭਗ ਢਾਈ ਸਾਲ ਪਹਿਲਾਂ ਇਸ ਵਿੱਚ ਆਏ ਸੀ। ਹਰ ਉਪਭੋਗਤਾ ਪੁੱਛਗਿੱਛ ਦੇ ਜਵਾਬ ਵਿੱਚ "ਡਾਕਟਰ ਨੂੰ ਮਿਲੋ" ਕਹਿਣਾ ਬਹੁਤ ਆਸਾਨ ਹੈ। ਪਰ ਇੱਕ ਸਿਹਤ AI ਬਣਾਉਣ ਲਈ ਜੋ ਅਸਲ ਵਿੱਚ ਵਰਤਣ ਯੋਗ ਅਤੇ ਮਦਦਗਾਰ ਹੈ, ਸਾਨੂੰ ਹਰ ਵਾਰ ਇਸਨੂੰ ਸਹੀ ਕਰਨਾ ਪਿਆ, ਨਾ ਕਿ ਸਿਰਫ ਸੁਰੱਖਿਅਤ ਖੇਡਣਾ।
ਸਾਡਾ ਫਾਇਦਾ ਇਹ ਹੈ ਕਿ ਸਾਲਾਂ ਦੌਰਾਨ ਸਾਡੇ ਕੋਲ ਲੱਖਾਂ ਉਪਭੋਗਤਾ ਸੰਦੇਸ਼ ਅਤੇ ਗੱਲਬਾਤ ਹੋਈ ਹੈ ਜੋ ਖਾਸ ਤੌਰ 'ਤੇ ਸਿਹਤ ਬਾਰੇ ਹਨ। ਅਸੀਂ ਹਰ ਇੱਕ ਕਿਨਾਰੇ ਦੇ ਕੇਸ ਅਤੇ ਅਸਫਲਤਾ ਮੋਡ ਦੇਖਿਆ ਹੈ।
ਇਸ ਲਈ ਅਸੀਂ ਹਰ ਪੱਧਰ 'ਤੇ ਗਾਰਡਰੇਲ ਬਣਾਏ ਹਨ, ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ ਤੋਂ ਲੈ ਕੇ ਆਉਟਪੁੱਟ ਨੂੰ ਸੈਨਟਾਈਜ਼ ਕਰਨ ਤੱਕ। ਜਦੋਂ ਕਿ ਉਸੇ ਸਮੇਂ ਸਾਰੀਆਂ ਸਿਹਤ ਪੁੱਛਗਿੱਛਾਂ ਲਈ ਪ੍ਰੀਸੀਜ਼ਨ ਅਤੇ ਸ਼ੁੱਧਤਾ 'ਤੇ ਬੇਰਹਿਮੀ ਨਾਲ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹਾਂ। ਅਤੇ ਅਸੀਂ ਅਜੇ ਤੱਕ ਸੰਤੁਸ਼ਟ ਨਹੀਂ ਹਾਂ।
ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਪਹਿਲਾਂ ਜ਼ਿਕਰ ਕੀਤਾ ਹੈ, ਮੌਜੂਦਾ ਬੈਂਚਮਾਰਕਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਹਨ, ਜਨਤਕ ਅਤੇ ਅੰਦਰੂਨੀ ਵਰਤੋਂ ਲਈ ਅਸੀਂ ਜੋ ਬਣਾਇਆ ਹੈ, ਦੋਵੇਂ।
ਅਸਲ ਦੁਨੀਆਂ ਮੁਸ਼ਕਲ ਹੈ ਅਤੇ ਤੁਸੀਂ ਕਦੇ ਵੀ ਸੰਪੂਰਨ ਨਤੀਜੇ ਦੀ ਗਰੰਟੀ ਨਹੀਂ ਦੇ ਸਕਦੇ, ਸਭ ਤੋਂ ਵਧੀਆ ਡਾਕਟਰ ਜਾਂ ਸਿਹਤ ਸੰਭਾਲ ਟੀਮ ਨਾਲ ਵੀ। ਇਹ ਇੱਕ ਬੁਨਿਆਦੀ ਸੱਚਾਈ ਹੈ ਜਿਸਦਾ ਮੈਡੀਕਲ ਫਰਟਰਨਿਟੀ ਹਰ ਰੋਜ਼ ਸਾਹਮਣਾ ਕਰਦੀ ਹੈ।
ਇਸ ਲਈ ਜਦੋਂ ਅਸੀਂ ਦੇਖਦੇ ਹਾਂ ਕਿ ਅਗਸਤ ਸਾਡੇ ਕੋਲ ਮੌਜੂਦ ਮੁਲਾਂਕਣਾਂ ਅਤੇ ਬੈਂਚਮਾਰਕਾਂ ਦੇ ਇੱਕ ਸਮੂਹ 'ਤੇ ਬਹੁਤ ਵਧੀਆ ਹੋ ਰਿਹਾ ਹੈ, ਅਸੀਂ ਟੀਚਿਆਂ ਨੂੰ ਬਦਲ ਦਿੰਦੇ ਹਾਂ। ਅਸੀਂ ਇਸਨੂੰ ਹੋਰ ਚੁਣੌਤੀਪੂਰਨ ਬਣਾਉਣ ਦੇ ਨਵੇਂ ਤਰੀਕੇ ਲੱਭਦੇ ਹਾਂ ਅਤੇ AI ਨੂੰ ਦੁਬਾਰਾ ਸੰਘਰਸ਼ ਕਰਾਉਂਦੇ ਹਾਂ, ਜੋ ਸਾਨੂੰ ਇਹ ਪਤਾ ਲਗਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ ਕਿ ਅਸੀਂ ਹੋਰ ਕਿੱਥੇ ਬਿਹਤਰ ਕਰ ਸਕਦੇ ਹਾਂ।
ਇਸ ਸਾਲ ਦੇ ਦੌਰਾਨ, ਅਸੀਂ ਹੋਰ ਜਨਤਕ ਬੈਂਚਮਾਰਕ ਚਲਾਉਣ ਦੀ ਯੋਜਨਾ ਬਣਾ ਰਹੇ ਹਾਂ। ਅਸੀਂ ਹੈਲਥਬੈਂਚ ਵਿੱਚ ਐਮਰਜੈਂਸੀ ਦ੍ਰਿਸ਼ਾਂ ਨਾਲ ਸ਼ੁਰੂ ਕਰਨ ਦਾ ਫੈਸਲਾ ਕੀਤਾ ਹੈ ਕਿਉਂਕਿ ਉਹ ਸਭ ਤੋਂ ਸੁਰੱਖਿਆ-ਆਲੋਚਨਾਤਮਕ ਸਥਿਤੀਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਦਾ ਉਪਭੋਗਤਾ ਸਾਹਮਣਾ ਕਰ ਸਕਦਾ ਹੈ। ਪਰ ਜਿਵੇਂ-ਜਿਵੇਂ ਅਸੀਂ ਅੱਗੇ ਵਧਦੇ ਹਾਂ, ਅਸੀਂ ਮਰੀਜ਼ਾਂ ਨਾਲ ਗੁੰਝਲਦਾਰ ਅਸਲ-ਦੁਨੀਆਂ ਦੀਆਂ ਗੱਲਬਾਤਾਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹੋਏ, ਹਰ ਤਰ੍ਹਾਂ ਦੇ ਟੈਸਟ ਕੇਸਾਂ ਨੂੰ ਕਵਰ ਕਰਾਂਗੇ।
ਜਦੋਂ ਸੰਪੂਰਨਤਾ ਅਸੰਭਵ ਹੁੰਦੀ ਹੈ, ਇੱਕ ਸੰਪੂਰਨ ਸਕੋਰ ਦਾ ਮਤਲਬ ਸਿਰਫ ਇਹ ਹੁੰਦਾ ਹੈ ਕਿ ਸਾਨੂੰ ਹੋਰ ਸਖ਼ਤ ਟੈਸਟਾਂ ਦੀ ਲੋੜ ਹੈ।
ਅਸੀਂ AI ਸਿਸਟਮਾਂ ਲਈ ਕੌਂਸਲ AI ਦੇ ਟ੍ਰਾਈਏਜ ਅਸੈਸਮੈਂਟ 'ਤੇ ਆਪਣੇ ਐਮਰਜੈਂਸੀ ਸੇਫਟੀ ਟੈਸਟਿੰਗ ਦਾ ਮਾਡਲ ਬਣਾਇਆ, ਜੋ ਕਿ OpenAI ਦੇ ਹੈਲਥਬੈਂਚ ਡੇਟਾਸੈੱਟ 'ਤੇ ਆਧਾਰਿਤ ਹੈ।
ਖਾਸ ਤੌਰ 'ਤੇ, ਇਹ ਹੈਲਥਬੈਂਚ ਕਨਸੈਂਸਸ ਉਪ-ਸਮੂਹ ਨੂੰ ਦੇਖਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ 3,600 ਤੋਂ ਥੋੜੇ ਜ਼ਿਆਦਾ ਦ੍ਰਿਸ਼ ਸ਼ਾਮਲ ਹਨ ਜਿੱਥੇ ਘੱਟੋ-ਘੱਟ ਦੋ ਡਾਕਟਰ ਸਹਿਮਤ ਸਨ।
ਇਸ ਨਾਲ ਸਾਨੂੰ 138 ਐਮਰਜੈਂਸੀ-ਸਬੰਧਤ ਦ੍ਰਿਸ਼ਾਂ ਦਾ ਇੱਕ ਸੈੱਟ ਮਿਲਿਆ।
ਅਸੀਂ ਉਹਨਾਂ ਨੂੰ ਇੱਕ-ਇੱਕ ਕਰਕੇ ਅਗਸਤ ਨੂੰ ਦਿੱਤੇ ਅਤੇ ਇਸਦੇ ਜਵਾਬਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ ਤਾਂ ਇਹ ਦੇਖਣ ਲਈ ਕਿ ਕੀ ਇਸਨੇ ਦ੍ਰਿਸ਼ ਨੂੰ ਐਮਰਜੈਂਸੀ ਵਾਧੇ ਦੀ ਲੋੜ ਵਜੋਂ ਪਛਾਣਿਆ ਹੈ ਜਾਂ ਨਹੀਂ:
ਫਿਰ ਅਸੀਂ 138 ਦ੍ਰਿਸ਼ਾਂ ਲਈ ਹੈਲਥਬੈਂਚ ਵਿੱਚ ਸਹਿਮਤ ਡਾਕਟਰ ਰੂਬ੍ਰਿਕਸ ਨਾਲ ਅਗਸਤ ਦੇ ਜਵਾਬਾਂ (ਵਾਧਾ ਬਨਾਮ ਕੋਈ ਵਾਧਾ ਨਹੀਂ) ਦੀ ਤੁਲਨਾ ਕੀਤੀ। 1.00 ਦਾ ਸਕੋਰ ਸੰਪੂਰਨ ਮੇਲ ਦਰਸਾਉਂਦਾ ਹੈ।
ਸਾਰੀ ਜਾਂਚ ਅਗਸਤ ਦੇ ਜਨਤਕ ਸੰਸਕਰਣ 'ਤੇ ਕੀਤੀ ਗਈ ਸੀ।
6Mpeople
Get clear medical guidance
on symptoms, medications, and lab reports.