MathVista

math

MathVista evaluates mathematical reasoning of foundation models in visual contexts. It consists of 6,141 examples derived from 28 existing multimodal datasets and 3 newly created datasets (IQTest, FunctionQA, and PaperQA), combining challenges from diverse mathematical and visual tasks to assess models' ability to understand complex figures and perform rigorous reasoning.

Leaderboard

Showing 20 of 36 results

o3

86.8%

i
o4-mini

84.3%

i
Step3-VL-10B

84.0%

i
Kimi-k1.5

74.9%

i
Llama 4 Maverick

73.7%

i
GPT-4.1 mini

73.1%

i
GPT-4.5

72.3%

i
GPT-4.1

72.2%

i
o1

71.8%

i
QvQ-72B-Preview

71.4%

i
Llama 4 Scout

70.7%

i
Pixtral Large

69.4%

i
Grok-2

69.0%

i
Gemini 1.5 Pro

68.1%

i
Grok-2 mini

68.1%

i
Qwen2.5-Omni-7B

67.9%

i
Claude 3.5 Sonnet

67.7%

i
Mistral Small 3.2 24B Instruct

67.1%

i
Gemini 1.5 Flash

65.8%

i
GPT-4o

63.8%

i