QwenWorldBench

reasoning

QwenWorldBench is Qwen's internal benchmark for evaluating LLMs as world models that simulate agentic environments across Terminal, SWE, MCP, Search, OS, Android, and Web domains.

Leaderboard

Showing 1 of 1 result

Qwen3.7 Max

57.3%

i