ZClawBench

coding

ZClawBench evaluates Claw-style agent task execution quality, measuring a model's ability to autonomously complete complex multi-step coding tasks in real-world environments.

Leaderboard

Showing 4 of 4 results

Qwen3.7 Max

64.3%

i
GLM-5V-Turbo

57.6%

i
Qwen3.6-27B

53.4%

i
Qwen3.6-35B-A3B

52.6%

i