TAU-bench Airline

reasoning

Part of τ-bench (TAU-bench), a benchmark for Tool-Agent-User interaction in real-world domains. The airline domain evaluates language agents' ability to interact with users through dynamic conversations while following domain-specific rules and using API tools. Agents must handle airline-related tasks and policies reliably.

Leaderboard

Showing 20 of 23 results

Claude Sonnet 4.5

70.0%

i
MiniMax M1 80K

62.0%

i
GLM-4.5-Air

60.8%

i
GLM-4.5

60.4%

i
Claude Sonnet 4

60.0%

i
MiniMax M1 40K

60.0%

i
Qwen3-Coder 480B A35B Instruct

60.0%

i
Claude Opus 4

59.6%

i
Claude 3.7 Sonnet

58.4%

i
Claude Opus 4.1

56.0%

i
GPT-4.5

50.0%

i
o1

50.0%

i
GPT-4.1

49.4%

i
o4-mini

49.2%

i
Qwen3-Next-80B-A3B-Thinking

49.0%

i
Claude 3.5 Sonnet

46.0%

i
Qwen3-235B-A22B-Thinking-2507

46.0%

i
Qwen3-Next-80B-A3B-Instruct

44.0%

i
GPT-4o

42.8%

i
GPT-4.1 mini

36.0%

i