OSWorld-Verified

multimodal

OSWorld-Verified is a verified subset of OSWorld, a scalable real computer environment for multimodal agents supporting task setup, execution-based evaluation, and interactive learning across Ubuntu, Windows, and macOS.

Leaderboard

Showing 16 of 16 results

Claude Fable 5

85.0%

i
Claude Opus 4.8

83.4%

i
Claude Mythos Preview

79.6%

i
GPT-5.5

78.7%

i
Gemini 3.5 Flash

78.4%

i
Claude Opus 4.7

78.0%

i
GPT-5.4

75.0%

i
Kimi K2.6

73.1%

i
GPT-5.4 mini

72.1%

i
MiniMax M3

70.1%

i
GPT-5.3 Codex

64.7%

i
Qwen3.6 Plus

62.5%

i
Qwen3.5-122B-A10B

58.0%

i
Qwen3.5-27B

56.2%

i
Qwen3.5-35B-A3B

54.5%

i
GPT-5.4 nano

39.0%

i