Hallusion Bench

reasoning

A comprehensive benchmark designed to evaluate image-context reasoning in large visual-language models (LVLMs) by challenging models with 346 images and 1,129 carefully crafted questions to assess language hallucination and visual illusion

Leaderboard

Showing 16 of 16 results

Qwen3.5-27B

70.0%

i
Qwen3.6-35B-A3B

69.8%

i
Qwen3.5-35B-A3B

67.9%

i
Qwen3.5-122B-A10B

67.6%

i
Qwen3 VL 32B Thinking

67.4%

i
Qwen3 VL 235B A22B Thinking

66.7%

i
Qwen3 VL 30B A3B Thinking

66.0%

i
Qwen3 VL 8B Thinking

65.4%

i
Qwen3 VL 4B Thinking

64.1%

i
Qwen3 VL 32B Instruct

63.8%

i
Qwen3 VL 235B A22B Instruct

63.2%

i
Qwen3 VL 30B A3B Instruct

61.5%

i
Qwen3 VL 8B Instruct

61.1%

i
Qwen3 VL 4B Instruct

57.6%

i
Qwen2.5 VL 72B Instruct

55.2%

i
Qwen2.5 VL 7B Instruct

52.9%

i