WideSearch

reasoning

WideSearch is an agentic search benchmark that evaluates models' ability to perform broad, parallel search operations across multiple sources. It tests wide-coverage information retrieval and synthesis capabilities.

Leaderboard

Showing 8 of 8 results

Kimi K2.6

80.8%

i
Kimi K2.5

79.0%

i
Qwen3.6 Plus

74.3%

i
Qwen3.5-397B-A17B

74.0%

i
Qwen3.5-27B

61.1%

i
Qwen3.5-122B-A10B

60.5%

i
Qwen3.6-35B-A3B

60.1%

i
Qwen3.5-35B-A3B

57.1%

i