MMLU-ProX

math

Extended version of MMLU-Pro providing additional challenging multiple-choice questions for evaluating language models across diverse academic and professional domains. Built on the foundation of the Massive Multitask Language Understanding benchmark framework.

Leaderboard

Showing 20 of 30 results

Qwen3.7 Max

87.0%

i
Qwen3.5-397B-A17B

84.7%

i
Qwen3.6 Plus

84.7%

i
Qwen3.5-122B-A10B

82.2%

i
Qwen3.5-27B

82.2%

i
Qwen3-235B-A22B-Thinking-2507

81.0%

i
Qwen3.5-35B-A3B

81.0%

i
Qwen3 VL 235B A22B Thinking

80.6%

i
Qwen3-235B-A22B-Instruct-2507

79.4%

i
Nemotron 3 Super (120B A12B)

79.4%

i
Qwen3-Next-80B-A3B-Thinking

78.7%

i
Qwen3 VL 235B A22B Instruct

77.8%

i
Qwen3 VL 32B Thinking

77.2%

i
Qwen3-Next-80B-A3B-Instruct

76.7%

i
Qwen3.5-9B

76.3%

i
Qwen3 VL 30B A3B Thinking

76.1%

i
Qwen3 VL 32B Instruct

73.4%

i
Qwen3.5-4B

71.5%

i
Qwen3 VL 30B A3B Instruct

70.9%

i
Qwen3 VL 8B Thinking

70.7%

i