CharXiv-R

reasoning

CharXiv-R is the reasoning component of the CharXiv benchmark, focusing on complex reasoning questions that require synthesizing information across visual chart elements. It evaluates multimodal large language models on their ability to understand and reason about scientific charts from arXiv papers through various reasoning tasks.

Leaderboard

Showing 20 of 38 results

Claude Mythos Preview

93.2%

i
Claude Opus 4.7

91.0%

i
Claude Opus 4.8

89.9%

i
Kimi K2.6

86.7%

i
Muse Spark

86.4%

i
Gemini 3.5 Flash

84.2%

i
GPT-5.2

82.1%

i
GPT-5.5 Instant

81.6%

i
Qwen3.6 Plus

81.5%

i
Gemini 3 Pro

81.4%

i
GPT-5

81.1%

i
MiMo-V2.5

81.0%

i
Gemini 3 Flash

80.3%

i
Qwen3.5-27B

79.5%

i
o3

78.6%

i
Qwen3.6-27B

78.4%

i
Qwen3.6-35B-A3B

78.0%

i
Kimi K2.5

77.5%

i
Qwen3.5-35B-A3B

77.5%

i
Claude Opus 4.6

77.4%

i