Toolathlon

reasoning

Tool Decathlon is a comprehensive benchmark for evaluating AI agents' ability to use multiple tools across diverse task categories. It measures proficiency in tool selection, sequencing, and execution across ten different tool-use scenarios.

Leaderboard

Showing 20 of 20 results

Claude Opus 4.8

59.9%

i
Gemini 3.5 Flash

56.5%

i
GPT-5.5

55.6%

i
GPT-5.4

54.6%

i
DeepSeek-V4-Pro-Max

51.8%

i
Kimi K2.6

50.0%

i
Gemini 3 Flash

49.4%

i
DeepSeek-V4-Flash-Max

47.8%

i
GPT-5.2

46.3%

i
MiniMax M2.7

46.3%

i
MiniMax M2.1

43.5%

i
GPT-5.4 mini

42.9%

i
GLM-5.1

40.7%

i
Qwen3.6 Plus

39.8%

i
Qwen3.5-397B-A17B

38.3%

i
GPT-5.4 nano

35.5%

i
DeepSeek-V3.2 (Thinking)

35.2%

i
DeepSeek-V3.2

35.2%

i
DeepSeek-V3.2-Speciale

35.2%

i
Qwen3.6-35B-A3B

26.9%

i