SWE-bench Multilingual

coding

A multilingual benchmark for issue resolving in software engineering that covers Java, TypeScript, JavaScript, Go, Rust, C, and C++. Contains 1,632 high-quality instances carefully annotated from 2,456 candidates by 68 expert annotators, designed to evaluate Large Language Models across diverse software ecosystems beyond Python.

Leaderboard

Showing 20 of 30 results

Claude Mythos Preview

87.3%

i
Claude Opus 4.8

84.4%

i
Qwen3.7 Max

78.3%

i
Claude Opus 4.6

77.8%

i
Kimi K2.6

76.7%

i
MiniMax M2.7

76.5%

i
DeepSeek-V4-Pro-Max

76.2%

i
Qwen3.6 Plus

73.8%

i
DeepSeek-V4-Flash-Max

73.3%

i
Kimi K2.5

73.0%

i
MiniMax M2.1

72.5%

i
MiMo-V2-Flash

71.7%

i
MiMo-V2-Pro

71.7%

i
Qwen3.6-27B

71.3%

i
DeepSeek-V3.2 (Thinking)

70.2%

i
DeepSeek-V3.2

70.2%

i
Qwen3.5-397B-A17B

69.3%

i
Qwen3.6-35B-A3B

67.2%

i
GLM-4.7

66.7%

i
MAI-Code-1-Flash

65.5%

i