Health Library Logo

Health Library

Health Library

ਅਗਸਤ ਨੇ ਇੱਕ ਸੰਪੂਰਨ ਹੈਲਥਬੈਂਚ ਸਕੋਰ ਕਿਵੇਂ ਪ੍ਰਾਪਤ ਕੀਤਾ (ਅਤੇ ਇਹ ਇੰਨਾ ਕਿਉਂ ਨਹੀਂ ਹੈ)

February 18, 2026


Question on this topic? Get an instant answer from August.

ਸਿਹਤ ਸੰਭਾਲ ਵਿੱਚ ਸੁਰੱਖਿਆ ਸ਼ਾਇਦ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਕਾਰਕ ਹੈ। ਇੱਕ AI ਸਹਾਇਕ ਜਾਂ ਏਜੰਟ ਜਿਸ 'ਤੇ ਉਪਭੋਗਤਾ 100% ਸੁਰੱਖਿਅਤ ਰਹਿਣ ਦਾ ਭਰੋਸਾ ਨਹੀਂ ਕਰ ਸਕਦਾ, ਉਹ ਅਸਲ ਵਿੱਚ ਖਤਰਨਾਕ ਹੈ।

ਇਹ ਕੁਝ ਅਜਿਹਾ ਹੈ ਜਿਸ ਬਾਰੇ ਅਸੀਂ ਅਗਸਤ AI ਵਿੱਚ ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਬਹੁਤ ਸੁਚੇਤ ਰਹੇ ਹਾਂ। ਕਿਸੇ ਵਿਅਕਤੀ ਦੀ ਸਿਹਤ ਨੂੰ ਕਦੇ ਵੀ ਹਲਕੇ ਢੰਗ ਨਾਲ ਨਹੀਂ ਲਿਆ ਜਾਣਾ ਚਾਹੀਦਾ। ਅਤੇ ਸਾਲਾਂ ਦੌਰਾਨ ਅਸੀਂ ਸੁਰੱਖਿਆ ਅਤੇ ਸ਼ੁੱਧਤਾ 'ਤੇ ਅਗਸਤ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਲਗਾਤਾਰ ਸੁਧਾਰ ਕੀਤਾ ਹੈ।

ਪਰ ਇਹ ਕਹਿਣਾ ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ, ਸਾਨੂੰ ਇੱਕ ਉਦੇਸ਼ ਮਾਪ ਦੀ ਲੋੜ ਹੈ।

ਸਿਹਤ ਸੰਭਾਲ ਵਿੱਚ AI ਕਾਬਲੀਅਤਾਂ ਦੀ ਜਾਂਚ ਲਈ ਬਹੁਤ ਸਾਰੇ ਚੰਗੇ ਜਨਤਕ ਬੈਂਚਮਾਰਕ ਨਹੀਂ ਹਨ, ਅਤੇ ਇਸ ਤੋਂ ਵੀ ਘੱਟ ਹਨ ਜਿਨ੍ਹਾਂ ਦੀ ਵਰਤੋਂ ਖਾਸ ਤੌਰ 'ਤੇ ਸੁਰੱਖਿਆ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।

ਸਭ ਤੋਂ ਵਧੀਆ ਵਿਕਲਪ ਹੈ ਹੈਲਥਬੈਂਚ, ਜਿਸਨੂੰ OpenAI ਨੇ ਪਿਛਲੇ ਸਾਲ ਮਈ ਵਿੱਚ ਲਾਂਚ ਕੀਤਾ ਸੀ। ਇਹ 5,000 ਸਿਹਤ ਗੱਲਬਾਤਾਂ ਦਾ ਇੱਕ ਡੇਟਾਸੈੱਟ ਹੈ ਜਿਸਦੇ ਵਿਰੁੱਧ ਅਸੀਂ AI ਸਹਾਇਕਾਂ ਦੀ ਜਾਂਚ ਕਰ ਸਕਦੇ ਹਾਂ। ਇਸ ਦੀਆਂ ਆਪਣੀਆਂ ਸੀਮਾਵਾਂ ਹਨ, ਜਿਨ੍ਹਾਂ 'ਤੇ ਅਸੀਂ ਥੋੜੀ ਦੇਰ ਵਿੱਚ ਆਵਾਂਗੇ। ਅਸੀਂ ਖਾਸ ਤੌਰ 'ਤੇ ਹੈਲਥਬੈਂਚ ਕਨਸੈਂਸਸ ਨਾਮਕ ਇੱਕ ਉਪ-ਸਮੂਹ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ, ਅਤੇ 138 ਗੱਲਬਾਤਾਂ ਨੂੰ ਦੇਖਿਆ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਐਮਰਜੈਂਸੀ ਵਾਧੇ ਸ਼ਾਮਲ ਸਨ।

ਨਤੀਜੇ

ਅਗਸਤ ਨੇ ਰੀਕਾਲ (ਸਾਰੀਆਂ ਐਮਰਜੈਂਸੀ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਪਛਾਣਨਾ) ਅਤੇ ਪ੍ਰੀਸੀਜ਼ਨ (ਸਾਰੀਆਂ ਗੈਰ-ਐਮਰਜੈਂਸੀ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਪਛਾਣਨਾ) ਦੋਵਾਂ 'ਤੇ ਸੰਪੂਰਨ 1.00 ਸਕੋਰ ਕੀਤਾ।

ਤੁਲਨਾ ਵਿੱਚ, ChatGPT ਅਤੇ Gemini ਵਰਗੇ ਜਨਰਲ AI ਸਾਰੀਆਂ ਐਮਰਜੈਂਸੀ ਨੂੰ ਵਧਾਉਣ 'ਤੇ ਸੰਪੂਰਨ ਹਨ, ਪਰ ਉਹਨਾਂ ਦੀ ਪ੍ਰੀਸੀਜ਼ਨ ਭਿਆਨਕ ਹੈ, ਜਿਵੇਂ ਕਿ ਹੇਠਾਂ ਦਿੱਤੇ ਚਾਰਟ ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ।

Article image

ਪ੍ਰਭਾਵ

ਅੰਕੜੇ ਸਾਨੂੰ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ ਆਮ AI ਸਹਾਇਕ ਬਹੁਤ ਸਾਵਧਾਨ ਹਨ, ਜੋ ਕਿ ਇੱਕ ਵਧੀਆ ਸ਼ੁਰੂਆਤੀ ਬਿੰਦੂ ਹੈ। ਪਰ ਉਹ ਬਹੁਤ ਸਾਰੀਆਂ ਗੈਰ-ਐਮਰਜੈਂਸੀ ਨੂੰ ਵੀ ਵਧਾਉਂਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਡਾਕਟਰਾਂ ਦਾ ਸਮਾਂ ਬਰਬਾਦ ਹੁੰਦਾ ਹੈ ਅਤੇ ਉਪਭੋਗਤਾ ਲਈ ਬਹੁਤ ਬੁਰਾ ਅਨੁਭਵ ਹੁੰਦਾ ਹੈ।

ਅਸੀਂ ਲਗਭਗ ਢਾਈ ਸਾਲ ਪਹਿਲਾਂ ਇਸ ਵਿੱਚ ਆਏ ਸੀ। ਹਰ ਉਪਭੋਗਤਾ ਪੁੱਛਗਿੱਛ ਦੇ ਜਵਾਬ ਵਿੱਚ "ਡਾਕਟਰ ਨੂੰ ਮਿਲੋ" ਕਹਿਣਾ ਬਹੁਤ ਆਸਾਨ ਹੈ। ਪਰ ਇੱਕ ਸਿਹਤ AI ਬਣਾਉਣ ਲਈ ਜੋ ਅਸਲ ਵਿੱਚ ਵਰਤਣ ਯੋਗ ਅਤੇ ਮਦਦਗਾਰ ਹੈ, ਸਾਨੂੰ ਹਰ ਵਾਰ ਇਸਨੂੰ ਸਹੀ ਕਰਨਾ ਪਿਆ, ਨਾ ਕਿ ਸਿਰਫ ਸੁਰੱਖਿਅਤ ਖੇਡਣਾ।

ਸਾਡਾ ਫਾਇਦਾ ਇਹ ਹੈ ਕਿ ਸਾਲਾਂ ਦੌਰਾਨ ਸਾਡੇ ਕੋਲ ਲੱਖਾਂ ਉਪਭੋਗਤਾ ਸੰਦੇਸ਼ ਅਤੇ ਗੱਲਬਾਤ ਹੋਈ ਹੈ ਜੋ ਖਾਸ ਤੌਰ 'ਤੇ ਸਿਹਤ ਬਾਰੇ ਹਨ। ਅਸੀਂ ਹਰ ਇੱਕ ਕਿਨਾਰੇ ਦੇ ਕੇਸ ਅਤੇ ਅਸਫਲਤਾ ਮੋਡ ਦੇਖਿਆ ਹੈ।

ਇਸ ਲਈ ਅਸੀਂ ਹਰ ਪੱਧਰ 'ਤੇ ਗਾਰਡਰੇਲ ਬਣਾਏ ਹਨ, ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ ਤੋਂ ਲੈ ਕੇ ਆਉਟਪੁੱਟ ਨੂੰ ਸੈਨਟਾਈਜ਼ ਕਰਨ ਤੱਕ। ਜਦੋਂ ਕਿ ਉਸੇ ਸਮੇਂ ਸਾਰੀਆਂ ਸਿਹਤ ਪੁੱਛਗਿੱਛਾਂ ਲਈ ਪ੍ਰੀਸੀਜ਼ਨ ਅਤੇ ਸ਼ੁੱਧਤਾ 'ਤੇ ਬੇਰਹਿਮੀ ਨਾਲ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹਾਂ। ਅਤੇ ਅਸੀਂ ਅਜੇ ਤੱਕ ਸੰਤੁਸ਼ਟ ਨਹੀਂ ਹਾਂ।

ਇੱਕ ਸੰਪੂਰਨ ਸਕੋਰ ਕਾਫ਼ੀ ਕਿਉਂ ਨਹੀਂ ਹੈ

ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਪਹਿਲਾਂ ਜ਼ਿਕਰ ਕੀਤਾ ਹੈ, ਮੌਜੂਦਾ ਬੈਂਚਮਾਰਕਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਹਨ, ਜਨਤਕ ਅਤੇ ਅੰਦਰੂਨੀ ਵਰਤੋਂ ਲਈ ਅਸੀਂ ਜੋ ਬਣਾਇਆ ਹੈ, ਦੋਵੇਂ।

ਅਸਲ ਦੁਨੀਆਂ ਮੁਸ਼ਕਲ ਹੈ ਅਤੇ ਤੁਸੀਂ ਕਦੇ ਵੀ ਸੰਪੂਰਨ ਨਤੀਜੇ ਦੀ ਗਰੰਟੀ ਨਹੀਂ ਦੇ ਸਕਦੇ, ਸਭ ਤੋਂ ਵਧੀਆ ਡਾਕਟਰ ਜਾਂ ਸਿਹਤ ਸੰਭਾਲ ਟੀਮ ਨਾਲ ਵੀ। ਇਹ ਇੱਕ ਬੁਨਿਆਦੀ ਸੱਚਾਈ ਹੈ ਜਿਸਦਾ ਮੈਡੀਕਲ ਫਰਟਰਨਿਟੀ ਹਰ ਰੋਜ਼ ਸਾਹਮਣਾ ਕਰਦੀ ਹੈ।

ਇਸ ਲਈ ਜਦੋਂ ਅਸੀਂ ਦੇਖਦੇ ਹਾਂ ਕਿ ਅਗਸਤ ਸਾਡੇ ਕੋਲ ਮੌਜੂਦ ਮੁਲਾਂਕਣਾਂ ਅਤੇ ਬੈਂਚਮਾਰਕਾਂ ਦੇ ਇੱਕ ਸਮੂਹ 'ਤੇ ਬਹੁਤ ਵਧੀਆ ਹੋ ਰਿਹਾ ਹੈ, ਅਸੀਂ ਟੀਚਿਆਂ ਨੂੰ ਬਦਲ ਦਿੰਦੇ ਹਾਂ। ਅਸੀਂ ਇਸਨੂੰ ਹੋਰ ਚੁਣੌਤੀਪੂਰਨ ਬਣਾਉਣ ਦੇ ਨਵੇਂ ਤਰੀਕੇ ਲੱਭਦੇ ਹਾਂ ਅਤੇ AI ਨੂੰ ਦੁਬਾਰਾ ਸੰਘਰਸ਼ ਕਰਾਉਂਦੇ ਹਾਂ, ਜੋ ਸਾਨੂੰ ਇਹ ਪਤਾ ਲਗਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ ਕਿ ਅਸੀਂ ਹੋਰ ਕਿੱਥੇ ਬਿਹਤਰ ਕਰ ਸਕਦੇ ਹਾਂ।

ਇਸ ਸਾਲ ਦੇ ਦੌਰਾਨ, ਅਸੀਂ ਹੋਰ ਜਨਤਕ ਬੈਂਚਮਾਰਕ ਚਲਾਉਣ ਦੀ ਯੋਜਨਾ ਬਣਾ ਰਹੇ ਹਾਂ। ਅਸੀਂ ਹੈਲਥਬੈਂਚ ਵਿੱਚ ਐਮਰਜੈਂਸੀ ਦ੍ਰਿਸ਼ਾਂ ਨਾਲ ਸ਼ੁਰੂ ਕਰਨ ਦਾ ਫੈਸਲਾ ਕੀਤਾ ਹੈ ਕਿਉਂਕਿ ਉਹ ਸਭ ਤੋਂ ਸੁਰੱਖਿਆ-ਆਲੋਚਨਾਤਮਕ ਸਥਿਤੀਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਦਾ ਉਪਭੋਗਤਾ ਸਾਹਮਣਾ ਕਰ ਸਕਦਾ ਹੈ। ਪਰ ਜਿਵੇਂ-ਜਿਵੇਂ ਅਸੀਂ ਅੱਗੇ ਵਧਦੇ ਹਾਂ, ਅਸੀਂ ਮਰੀਜ਼ਾਂ ਨਾਲ ਗੁੰਝਲਦਾਰ ਅਸਲ-ਦੁਨੀਆਂ ਦੀਆਂ ਗੱਲਬਾਤਾਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹੋਏ, ਹਰ ਤਰ੍ਹਾਂ ਦੇ ਟੈਸਟ ਕੇਸਾਂ ਨੂੰ ਕਵਰ ਕਰਾਂਗੇ।

ਜਦੋਂ ਸੰਪੂਰਨਤਾ ਅਸੰਭਵ ਹੁੰਦੀ ਹੈ, ਇੱਕ ਸੰਪੂਰਨ ਸਕੋਰ ਦਾ ਮਤਲਬ ਸਿਰਫ ਇਹ ਹੁੰਦਾ ਹੈ ਕਿ ਸਾਨੂੰ ਹੋਰ ਸਖ਼ਤ ਟੈਸਟਾਂ ਦੀ ਲੋੜ ਹੈ।

ਜਾਂਚ ਵਿਧੀ 'ਤੇ ਨੋਟਸ

ਅਸੀਂ AI ਸਿਸਟਮਾਂ ਲਈ ਕੌਂਸਲ AI ਦੇ ਟ੍ਰਾਈਏਜ ਅਸੈਸਮੈਂਟ 'ਤੇ ਆਪਣੇ ਐਮਰਜੈਂਸੀ ਸੇਫਟੀ ਟੈਸਟਿੰਗ ਦਾ ਮਾਡਲ ਬਣਾਇਆ, ਜੋ ਕਿ OpenAI ਦੇ ਹੈਲਥਬੈਂਚ ਡੇਟਾਸੈੱਟ 'ਤੇ ਆਧਾਰਿਤ ਹੈ।

ਖਾਸ ਤੌਰ 'ਤੇ, ਇਹ ਹੈਲਥਬੈਂਚ ਕਨਸੈਂਸਸ ਉਪ-ਸਮੂਹ ਨੂੰ ਦੇਖਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ 3,600 ਤੋਂ ਥੋੜੇ ਜ਼ਿਆਦਾ ਦ੍ਰਿਸ਼ ਸ਼ਾਮਲ ਹਨ ਜਿੱਥੇ ਘੱਟੋ-ਘੱਟ ਦੋ ਡਾਕਟਰ ਸਹਿਮਤ ਸਨ।

  • ਉਸ ਸੈੱਟ ਤੋਂ, ਡਾਕਟਰਾਂ ਦੁਆਰਾ ਐਮਰਜੈਂਸੀ-ਸਬੰਧਤ ਵਜੋਂ ਸ਼੍ਰੇਣੀਬੱਧ 453 ਗੱਲਬਾਤਾਂ ਕੱਢੀਆਂ ਗਈਆਂ।
  • ਸ਼ਰਤੀ ਐਮਰਜੈਂਸੀ ਕੇਸ, ਜਿੱਥੇ ਗੱਲਬਾਤ ਵਿੱਚ ਮੌਜੂਦ ਜਾਣਕਾਰੀ ਐਮਰਜੈਂਸੀ ਦਾ ਸੰਕੇਤ ਦੇ ਸਕਦੀ ਹੈ, ਨੂੰ ਬਾਹਰ ਰੱਖਿਆ ਗਿਆ।
  • AI ਮਾਡਲਾਂ ਵਿੱਚ ਨਿਰਪੱਖ ਤੁਲਨਾ ਬਣਾਈ ਰੱਖਣ ਲਈ, ਗੈਰ-ਅੰਗਰੇਜ਼ੀ ਪ੍ਰੋਂਪਟ ਹਟਾ ਦਿੱਤੇ ਗਏ।
  • ਉਹ ਦ੍ਰਿਸ਼ ਜਿੱਥੇ ਉਪਭੋਗਤਾ ਕਿਸੇ ਹੋਰ (ਜਿਵੇਂ ਕਿ ਰਿਸ਼ਤੇਦਾਰ ਜਾਂ ਦੋਸਤ) ਲਈ ਸਿਹਤ ਪੁੱਛਗਿੱਛ ਪੇਸ਼ ਕਰ ਰਿਹਾ ਹੈ, ਉਹਨਾਂ ਨੂੰ ਵੀ ਰੱਦ ਕਰ ਦਿੱਤਾ ਗਿਆ।

ਇਸ ਨਾਲ ਸਾਨੂੰ 138 ਐਮਰਜੈਂਸੀ-ਸਬੰਧਤ ਦ੍ਰਿਸ਼ਾਂ ਦਾ ਇੱਕ ਸੈੱਟ ਮਿਲਿਆ।

ਅਸੀਂ ਉਹਨਾਂ ਨੂੰ ਇੱਕ-ਇੱਕ ਕਰਕੇ ਅਗਸਤ ਨੂੰ ਦਿੱਤੇ ਅਤੇ ਇਸਦੇ ਜਵਾਬਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ ਤਾਂ ਇਹ ਦੇਖਣ ਲਈ ਕਿ ਕੀ ਇਸਨੇ ਦ੍ਰਿਸ਼ ਨੂੰ ਐਮਰਜੈਂਸੀ ਵਾਧੇ ਦੀ ਲੋੜ ਵਜੋਂ ਪਛਾਣਿਆ ਹੈ ਜਾਂ ਨਹੀਂ:

  • ਜਿੱਥੇ ਅਗਸਤ ਨੇ ਉਪਭੋਗਤਾ ਨੂੰ ਤੁਰੰਤ ਜਾਂ ਜਿੰਨੀ ਜਲਦੀ ਹੋ ਸਕੇ ਡਾਕਟਰ ਨੂੰ ਮਿਲਣ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ, ਅਸੀਂ ਉਸ ਜਵਾਬ ਨੂੰ ਇੱਕ ਐਮਰਜੈਂਸੀ ਵਾਧੇ ਵਜੋਂ ਦਰਜ ਕੀਤਾ।
  • ਜਿੱਥੇ ਅਗਸਤ ਨੇ ਉਪਭੋਗਤਾ ਨੂੰ ਜਾਣਕਾਰੀ ਦਿੱਤੀ ਅਤੇ ਡਾਕਟਰ ਨਾਲ ਸਲਾਹ ਕਰਨ ਦਾ ਸੁਝਾਅ ਦਿੱਤਾ, ਅਸੀਂ ਜਵਾਬ ਨੂੰ ਵਾਧਾ ਨਾ ਹੋਣ ਵਜੋਂ ਦਰਜ ਕੀਤਾ।

ਫਿਰ ਅਸੀਂ 138 ਦ੍ਰਿਸ਼ਾਂ ਲਈ ਹੈਲਥਬੈਂਚ ਵਿੱਚ ਸਹਿਮਤ ਡਾਕਟਰ ਰੂਬ੍ਰਿਕਸ ਨਾਲ ਅਗਸਤ ਦੇ ਜਵਾਬਾਂ (ਵਾਧਾ ਬਨਾਮ ਕੋਈ ਵਾਧਾ ਨਹੀਂ) ਦੀ ਤੁਲਨਾ ਕੀਤੀ। 1.00 ਦਾ ਸਕੋਰ ਸੰਪੂਰਨ ਮੇਲ ਦਰਸਾਉਂਦਾ ਹੈ।

ਸਾਰੀ ਜਾਂਚ ਅਗਸਤ ਦੇ ਜਨਤਕ ਸੰਸਕਰਣ 'ਤੇ ਕੀਤੀ ਗਈ ਸੀ।

Health Companion

trusted by

6Mpeople

Get clear medical guidance
on symptoms, medications, and lab reports.

QR code to download August

download august