MMBench-V1.1

reasoning

Version 1.1 of MMBench, an improved bilingual benchmark for assessing multi-modal capabilities of vision-language models through multiple-choice questions in both English and Chinese, providing systematic evaluation across diverse vision-language tasks.

Leaderboard

Showing 18 of 18 results

Qwen3.5-122B-A10B

92.8%

i
Qwen3.6-35B-A3B

92.8%

i
Qwen3.5-27B

92.6%

i
Qwen3.6-27B

92.3%

i
Qwen3.5-35B-A3B

91.5%

i
Qwen3 VL 32B Thinking

90.8%

i
Qwen3 VL 235B A22B Thinking

90.6%

i
Qwen3 VL 235B A22B Instruct

89.9%

i
Qwen3 VL 30B A3B Thinking

88.9%

i
Qwen3 VL 8B Thinking

87.5%

i
Qwen3 VL 30B A3B Instruct

87.0%

i
Qwen3 VL 4B Thinking

86.7%

i
Qwen3 VL 4B Instruct

85.1%

i
Qwen3 VL 8B Instruct

85.0%

i
Qwen2.5-Omni-7B

81.8%

i
DeepSeek VL2 Small

79.3%

i
DeepSeek VL2

79.2%

i
DeepSeek VL2 Tiny

68.3%

i