AI2D

reasoning

AI2D is a dataset of 4,903 illustrative diagrams from grade school natural sciences (such as food webs, human physiology, and life cycles) with over 15,000 multiple choice questions and answers. The benchmark evaluates diagram understanding and visual reasoning capabilities, requiring models to interpret diagrammatic elements, relationships, and structure to answer questions about scientific concepts represented in visual form.

Leaderboard

Showing 20 of 32 results

Claude 3.5 Sonnet

94.7%

i
Qwen3.6 Plus

94.4%

i
GPT-4o

94.2%

i
Pixtral Large

93.8%

i
Qwen3.5-122B-A10B

93.3%

i
Mistral Small 3.2 24B Instruct

92.9%

i
Qwen3.5-27B

92.9%

i
Qwen3.6-35B-A3B

92.7%

i
Qwen3.5-35B-A3B

92.6%

i
Llama 3.2 90B Instruct

92.3%

i
Llama 3.2 11B Instruct

91.1%

i
Qwen3 VL 235B A22B Instruct

89.7%

i
Qwen3 VL 32B Instruct

89.5%

i
Qwen3 VL 235B A22B Thinking

89.2%

i
Qwen3 VL 32B Thinking

88.9%

i
Qwen2.5 VL 72B Instruct

88.4%

i
Grok-1.5V

88.3%

i
Qwen3 VL 30B A3B Thinking

86.9%

i
Qwen3 VL 8B Instruct

85.7%

i
Qwen3 VL 30B A3B Instruct

85.0%

i