MMT-Bench

reasoning

MMT-Bench is a comprehensive multimodal benchmark for evaluating Large Vision-Language Models towards multitask AGI. It comprises 31,325 meticulously curated multi-choice visual questions from various multimodal scenarios such as vehicle driving and embodied navigation, covering 32 core meta-tasks and 162 subtasks in multimodal understanding.

Leaderboard

Showing 4 of 4 results

DeepSeek VL2

63.6%

i
Qwen2.5 VL 7B Instruct

63.6%

i
DeepSeek VL2 Small

62.9%

i
DeepSeek VL2 Tiny

53.2%

i