MedXpertQA

reasoning

A comprehensive benchmark to evaluate expert-level medical knowledge and advanced reasoning, featuring 4,460 questions spanning 17 specialties and 11 body systems. Includes both text-only and multimodal subsets with expert-level exam questions incorporating diverse medical images and rich clinical information.

Leaderboard

Showing 12 of 12 results

Muse Spark

78.4%

i
Qwen3.5-122B-A10B

67.3%

i
Qwen3.5-27B

62.4%

i
Qwen3.5-35B-A3B

61.4%

i
Gemma 4 31B

61.3%

i
Gemma 4 26B-A4B

58.1%

i
DiffusionGemma 26B-A4B

49.0%

i
Gemma 4 12B

48.7%

i
MAI-Thinking-1

43.0%

i
Gemma 4 E4B

28.7%

i
Gemma 4 E2B

23.5%

i
MedGemma 4B IT

18.8%

i