MLVU

multimodal

A comprehensive benchmark for multi-task long video understanding that evaluates multimodal large language models on videos ranging from 3 minutes to 2 hours across 9 distinct tasks including reasoning, captioning, recognition, and summarization.

Leaderboard

Showing 9 of 9 results

Qwen3.5-122B-A10B

87.3%

i
Qwen3.6 Plus

86.7%

i
Qwen3.6-27B

86.6%

i
Qwen3.6-35B-A3B

86.2%

i
Qwen3.5-27B

85.9%

i
Qwen3.5-35B-A3B

85.6%

i
Qwen3 VL 235B A22B Instruct

84.3%

i
Qwen3 VL 235B A22B Thinking

83.8%

i
Qwen2.5 VL 7B Instruct

70.2%

i