TAU3-Bench

reasoning

TAU3-Bench is a benchmark for evaluating general-purpose agent capabilities, testing models on multi-turn interactions with simulated user models, retrieval, and complex decision-making scenarios.

Leaderboard

Showing 4 of 4 results

MiMo-V2.5-Pro

72.9%

i
Qwen3.6 Plus

70.7%

i
GLM-5.1

70.6%

i
Qwen3.6-35B-A3B

67.2%

i