ERQA

reasoning

Embodied Reasoning Question Answering benchmark consisting of 400 multiple-choice visual questions across spatial reasoning, trajectory reasoning, action reasoning, state estimation, and multi-view reasoning for evaluating AI capabilities in physical world interactions

Leaderboard

Showing 19 of 19 results

GPT-5

65.7%

i
Qwen3.6 Plus

65.7%

i
Qwen3.5-35B-A3B

64.8%

i
Muse Spark

64.7%

i
o3

64.0%

i
Qwen3.6-27B

62.5%

i
Qwen3.5-122B-A10B

62.0%

i
Qwen3.5-27B

60.5%

i
Qwen3 VL 235B A22B Thinking

52.5%

i
Qwen3 VL 32B Thinking

52.3%

i
Qwen3 VL 235B A22B Instruct

51.3%

i
Qwen3 VL 32B Instruct

48.8%

i
Qwen3 VL 4B Thinking

47.3%

i
Qwen3 VL 8B Thinking

46.8%

i
Qwen3 VL 8B Instruct

45.8%

i
Qwen3 VL 30B A3B Thinking

45.3%

i
Qwen3 VL 30B A3B Instruct

43.0%

i
Qwen3 VL 4B Instruct

41.3%

i
GPT-4o

35.2%

i