VITA-Bench

reasoning

VITA-Bench evaluates AI agents on real-world virtual task automation, measuring their ability to complete complex multi-step tasks in simulated environments.

Leaderboard

Showing 9 of 9 results

Qwen3.5-397B-A17B

49.7%

i
Qwen3.7 Max

47.9%

i
Qwen3.6 Plus

44.3%

i
Qwen3.5-27B

41.9%

i
Qwen3.6-35B-A3B

35.6%

i
Qwen3.5-122B-A10B

33.6%

i
Qwen3.5-35B-A3B

31.9%

i
Qwen3.5-9B

29.8%

i
Qwen3.5-4B

22.0%

i