Tau3 Retail

reasoning

τ³-Bench retail domain evaluates agentic models on multi-turn, tool-using customer-support scenarios in a simulated online retail environment.

Leaderboard

Showing 1 of 1 result