PolyMATH

math

Polymath is a challenging multi-modal mathematical reasoning benchmark designed to evaluate the general cognitive reasoning abilities of Multi-modal Large Language Models (MLLMs). The benchmark comprises 5,000 manually collected high-quality images of cognitive textual and visual challenges across 10 distinct categories, including pattern recognition, spatial reasoning, and relative reasoning.

Leaderboard

Showing 20 of 22 results

Qwen3.7 Max

86.5%

i
Qwen3.6 Plus

77.4%

i
Qwen3.5-397B-A17B

73.3%

i
Qwen3.5-27B

71.2%

i
Qwen3.5-122B-A10B

68.9%

i
Qwen3.5-35B-A3B

64.4%

i
Qwen3-235B-A22B-Thinking-2507

60.1%

i
Qwen3.5-9B

57.3%

i
Qwen3-Next-80B-A3B-Thinking

56.3%

i
Qwen3 VL 32B Thinking

52.0%

i
Qwen3 VL 30B A3B Thinking

51.7%

i
Qwen3.5-4B

51.1%

i
Qwen3-235B-A22B-Instruct-2507

50.2%

i
Qwen3 VL 8B Thinking

47.5%

i
Qwen3-Next-80B-A3B-Instruct

45.9%

i
Qwen3 VL 4B Thinking

44.6%

i
Qwen3 VL 30B A3B Instruct

44.3%

i
Qwen3 VL 32B Instruct

40.5%

i
Qwen3 VL 8B Instruct

30.4%

i
Qwen3 VL 4B Instruct

28.8%

i