AA-LCR

reasoning

Agent Arena Long Context Reasoning benchmark

Leaderboard

Showing 13 of 13 results

Mistral Small 4

71.2%

i
Kimi K2.5

70.0%

i
Qwen3.5-397B-A17B

68.7%

i
Qwen3.6 Plus

68.3%

i
Qwen3.5-122B-A10B

66.9%

i
Qwen3.5-27B

66.1%

i
Qwen3.5-9B

63.0%

i
MiniMax M2.1

62.0%

i
Qwen3.5-35B-A3B

58.5%

i
Nemotron 3 Super (120B A12B)

58.3%

i
Qwen3.5-4B

57.0%

i
Qwen3.5-2B

25.6%

i
Qwen3.5-0.8B

4.7%

i