MMMUval

reasoning

Validation set for MMMU (Massive Multi-discipline Multimodal Understanding and Reasoning) benchmark, designed to evaluate multimodal models on massive multi-discipline tasks demanding college-level subject knowledge and deliberate reasoning across Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering.

Leaderboard

Showing 4 of 4 results

Qwen3 VL 235B A22B Thinking

80.6%

i
Qwen3 VL 235B A22B Instruct

78.7%

i
Claude Sonnet 4.5

77.8%

i
Qwen2-VL-72B-Instruct

64.5%

i