C-Eval

reasoning

C-Eval is a comprehensive Chinese evaluation suite designed to assess advanced knowledge and reasoning abilities of foundation models in a Chinese context. It comprises 13,948 multiple-choice questions across 52 diverse disciplines spanning humanities, science, and engineering, with four difficulty levels: middle school, high school, college, and professional. The benchmark includes C-Eval Hard, a subset of very challenging subjects requiring advanced reasoning abilities.

Leaderboard

Showing 18 of 18 results

Qwen3.6 Plus

93.3%

i
Qwen3.5-397B-A17B

93.0%

i
Kimi K2 Base

92.5%

i
Qwen3.5-122B-A10B

91.9%

i
MiMo-V2.5-Pro

91.5%

i
Qwen3.6-27B

91.4%

i
Qwen3.5-27B

90.5%

i
Qwen3.5-35B-A3B

90.2%

i
Qwen3.6-35B-A3B

90.0%

i
Kimi-k1.5

88.3%

i
Qwen3.5-9B

88.2%

i
DeepSeek-V3

86.5%

i
Qwen3.5-4B

85.1%

i
Qwen2 72B Instruct

83.8%

i
Qwen2 7B Instruct

77.2%

i
Qwen3.5-2B

73.2%

i
Qwen3.5-0.8B

50.5%

i
ERNIE 4.5

40.7%

i