AndroidWorld_SR

reasoning

AndroidWorld Success Rate (SR) benchmark - A dynamic benchmarking environment for autonomous agents operating on Android devices. Evaluates agents on 116 programmatic tasks across 20 real-world Android apps using multimodal inputs (screen screenshots, accessibility trees, and natural language instructions). Measures success rate of agents completing tasks like sending messages, creating calendar events, and navigating mobile interfaces. Published at ICLR 2025. Best current performance: 30.6% success rate (M3A agent) vs 80.0% human performance.

Leaderboard

Showing 8 of 8 results

Qwen3.5-35B-A3B

71.1%

i
Qwen3.5-122B-A10B

66.4%

i
Qwen3.5-27B

64.2%

i
Qwen3 VL 235B A22B Instruct

63.7%

i
Qwen3 VL 32B Thinking

63.7%

i
Qwen2.5 VL 72B Instruct

35.0%

i
Qwen2.5 VL 7B Instruct

25.5%

i
Qwen2.5 VL 32B Instruct

22.0%

i