Terminal-Bench 2.0

coding

Terminal-Bench 2.0 is an updated benchmark for testing AI agents' tool use ability to operate a computer via terminal. It evaluates how well models can handle real-world, end-to-end tasks autonomously, including compiling code, training models, setting up servers, system administration, security tasks, data science workflows, and cybersecurity vulnerabilities.

Leaderboard

Showing 20 of 46 results

GPT-5.5

82.7%

i
Claude Mythos Preview

82.0%

i
GPT-5.3 Codex

77.3%

i
Gemini 3.5 Flash

76.2%

i
GPT-5.4

75.1%

i
Claude Opus 4.8

74.6%

i
Qwen3.7 Max

69.7%

i
Claude Opus 4.7

69.4%

i
GLM-5.1

69.0%

i
Gemini 3.1 Pro

68.5%

i
MiMo-V2.5-Pro

68.4%

i
DeepSeek-V4-Pro-Max

67.9%

i
Kimi K2.6

66.7%

i
MiMo-V2.5

65.8%

i
Claude Opus 4.6

65.4%

i
GPT-5.2 Codex

64.0%

i
Qwen3.6 Plus

61.6%

i
GPT-5.4 mini

60.0%

i
Claude Opus 4.5

59.3%

i
Qwen3.6-27B

59.3%

i