VQAv2

reasoning

VQAv2 is a balanced Visual Question Answering dataset that addresses language bias by providing complementary images for each question, forcing models to rely on visual understanding rather than language priors. It contains approximately twice the number of image-question pairs compared to the original VQA dataset.

Leaderboard

Showing 3 of 3 results

Pixtral Large

80.9%

i
Pixtral-12B

78.6%

i
Llama 3.2 90B Instruct

78.1%

i