OJBench

reasoning

OJBench is a competition-level code benchmark designed to assess the competitive-level code reasoning abilities of large language models. It comprises 232 programming competition problems from NOI and ICPC, categorized into Easy, Medium, and Hard difficulty levels. The benchmark evaluates models' ability to solve complex competitive programming challenges using Python and C++.

Leaderboard

Showing 9 of 9 results

Kimi K2.6

60.6%

i
Kimi K2-Thinking-0905

48.7%

i
Qwen3.5-27B

40.1%

i
Qwen3.5-122B-A10B

39.5%

i
Qwen3.5-35B-A3B

36.0%

i
Qwen3-235B-A22B-Thinking-2507

32.5%

i
Qwen3-Next-80B-A3B-Thinking

29.7%

i
Kimi K2 Instruct

27.1%

i
Kimi K2-Instruct-0905

27.1%

i