SWE-Bench Pro

coding

SWE-Bench Pro is an advanced version of SWE-Bench that evaluates language models on complex, real-world software engineering tasks requiring extended reasoning and multi-step problem solving.

Leaderboard

Showing 20 of 29 results

Claude Fable 5

80.0%

i
Claude Mythos Preview

77.8%

i
Claude Opus 4.8

69.2%

i
Claude Opus 4.7

64.3%

i
Qwen3.7 Max

60.6%

i
MiniMax M3

59.0%

i
GPT-5.5

58.6%

i
Kimi K2.6

58.6%

i
GLM-5.1

58.4%

i
GPT-5.4

57.7%

i
MiMo-V2.5-Pro

57.2%

i
GPT-5.3 Codex

56.8%

i
Qwen3.6 Plus

56.6%

i
GPT-5.2 Codex

56.4%

i
MiniMax M2.7

56.2%

i
MiMo-V2.5

56.1%

i
DeepSeek-V4-Pro-Max

55.4%

i
MiniMax M2.5

55.4%

i
Gemini 3.5 Flash

55.1%

i
GPT-5.4 mini

54.4%

i