DeepSearchQA

reasoning

DeepSearchQA is a benchmark for evaluating deep search and question-answering capabilities, testing models' ability to perform multi-hop reasoning and information retrieval across complex knowledge domains.

Leaderboard

Showing 6 of 6 results

Claude Opus 4.8

93.1%

i
Claude Opus 4.6

91.3%

i
MiMo-V2-Pro

86.7%

i
Kimi K2.6

83.0%

i
Kimi K2.5

77.1%

i
Muse Spark

74.8%

i