HealthBench Hard

healthcare

A challenging variation of HealthBench that evaluates large language models' performance and safety in healthcare through 5,000 multi-turn conversations with particularly rigorous evaluation criteria validated by 262 physicians from 60 countries

Leaderboard

Showing 6 of 6 results

Muse Spark

42.8%

i
GPT OSS 120B

30.0%

i
GPT-5.3 Chat

25.9%

i
GPT-5.5 Instant

22.9%

i
GPT OSS 20B

10.8%

i
GPT-5

1.6%

i