TAU-bench Retail

reasoning

A benchmark for evaluating tool-agent-user interaction in retail environments. Tests language agents' ability to handle dynamic conversations with users while using domain-specific API tools and following policy guidelines. Evaluates agents on tasks like order cancellations, address changes, and order status checks through multi-turn conversations.

Leaderboard

Showing 20 of 25 results

Claude Sonnet 4.5

86.2%

i
Claude Opus 4.1

82.4%

i
Claude Opus 4

81.4%

i
Claude 3.7 Sonnet

81.2%

i
Claude Sonnet 4

80.5%

i
GLM-4.5

79.7%

i
GLM-4.5-Air

77.9%

i
Qwen3-Coder 480B A35B Instruct

77.5%

i
o4-mini

71.8%

i
o1

70.8%

i
Qwen3-Next-80B-A3B-Thinking

69.6%

i
Claude 3.5 Sonnet

69.2%

i
GPT-4.5

68.4%

i
GPT-4.1

68.0%

i
GPT OSS 120B

67.8%

i
Qwen3-235B-A22B-Thinking-2507

67.8%

i
MiniMax M1 40K

67.8%

i
MiniMax M1 80K

63.5%

i
Qwen3-Next-80B-A3B-Instruct

60.9%

i
GPT-4o

60.3%

i