MCP Atlas

coding

MCP Atlas is a benchmark for evaluating AI models on scaled tool use capabilities, measuring how well models can coordinate and utilize multiple tools across complex multi-step tasks.

Leaderboard

Showing 20 of 23 results

Gemini 3.5 Flash

83.6%

i
Claude Opus 4.8

82.2%

i
Claude Opus 4.7

77.3%

i
Qwen3.7 Max

76.4%

i
Kimi K2.7 Code

76.0%

i
GPT-5.5

75.3%

i
MiniMax M3

74.2%

i
Qwen3.6 Plus

74.1%

i
DeepSeek-V4-Pro-Max

73.6%

i
GLM-5.1

71.8%

i
Gemini 3.1 Pro

69.2%

i
DeepSeek-V4-Flash-Max

69.0%

i
GLM-5

67.8%

i
GPT-5.4

67.2%

i
Qwen3.6-35B-A3B

62.8%

i
Claude Opus 4.6

62.7%

i
Claude Opus 4.5

62.3%

i
Claude Sonnet 4.6

61.3%

i
GPT-5.2

60.6%

i
GPT-5.4 mini

57.7%

i