HumanEval

coding

A benchmark that measures functional correctness for synthesizing programs from docstrings, consisting of 164 original programming problems assessing language comprehension, algorithms, and simple mathematics

Leaderboard

Showing 20 of 72 results

MiniCPM-SALA

95.1%

i
Claude Opus 4.7

95.0%

i
Kimi K2 0905

94.5%

i
Claude 3.5 Sonnet

93.7%

i
GPT-5

93.4%

i
Kimi K2 Instruct

93.3%

i
Qwen2.5-Coder 32B Instruct

92.7%

i
o1

92.4%

i
o1-mini

92.4%

i
Sarvam-30B

92.1%

i
Claude 3.5 Sonnet

92.0%

i
Mistral Large 2

92.0%

i
Claude 3.5 Sonnet

92.0%

i
Mistral Large 2

92.0%

i
Qwen2.5 VL 32B Instruct

91.5%

i
GPT-4o

90.2%

i
GPT-4o

90.2%

i
Granite 3.3 8B Base

89.7%

i
Granite 3.3 8B Instruct

89.7%

i
Gemini Diffusion

89.6%

i