MMStar

reasoning

MMStar is an elite vision-indispensable multimodal benchmark comprising 1,500 challenge samples meticulously selected by humans to evaluate 6 core capabilities and 18 detailed axes. The benchmark addresses issues of visual content unnecessity and unintentional data leakage in existing multimodal evaluations.

Leaderboard

Showing 20 of 22 results

Qwen3.6 Plus

83.3%

i
Qwen3.5-122B-A10B

82.9%

i
Qwen3.5-35B-A3B

81.9%

i
Qwen3.6-27B

81.4%

i
Qwen3.5-27B

81.0%

i
Qwen3 VL 32B Thinking

79.4%

i
Qwen3 VL 235B A22B Thinking

78.7%

i
Qwen3 VL 235B A22B Instruct

78.4%

i
Qwen3 VL 32B Instruct

77.7%

i
Qwen3 VL 30B A3B Thinking

75.5%

i
Qwen3 VL 8B Thinking

75.3%

i
Qwen3 VL 4B Thinking

73.2%

i
Qwen3 VL 30B A3B Instruct

72.1%

i
Qwen3 VL 8B Instruct

70.9%

i
Qwen2.5 VL 72B Instruct

70.8%

i
Qwen3 VL 4B Instruct

69.8%

i
Qwen2.5 VL 32B Instruct

69.5%

i
Qwen2.5-Omni-7B

64.0%

i
Qwen2.5 VL 7B Instruct

63.9%

i
DeepSeek VL2

61.3%

i