MM-MT-Bench

multimodal

A multi-turn LLM-as-a-judge evaluation benchmark for testing multimodal instruction-tuned models' ability to follow user instructions in multi-turn dialogues and answer open-ended questions in a zero-shot manner.

Leaderboard

Showing 17 of 17 results

Mistral Large 3

84.9

i
Pixtral Large

74

i
Pixtral-12B

60.5

i
Qwen3 VL 235B A22B Instruct

8.5

i
Qwen3 VL 235B A22B Thinking

8.5

i
Qwen3 VL 32B Instruct

8.4

i
Qwen3 VL 32B Thinking

8.3

i
Qwen3 VL 30B A3B Instruct

8.1

i
Qwen3 VL 8B Thinking

8

i
Qwen3 VL 30B A3B Thinking

7.9

i
Qwen3 VL 4B Thinking

7.7

i
Qwen3 VL 8B Instruct

7.7

i
Qwen3 VL 4B Instruct

7.5

i
MiniStral 3 (14B Instruct 2512)

0.085

i
Ministral 3 (8B Instruct 2512)

0.081

i
Ministral 3 (3B Instruct 2512)

0.078

i
Qwen2.5-Omni-7B

0.06

i