Llama 3.2 11B Instruct

Llama 3.2 11B Vision Instruct is an instruction-tuned multimodal large language model optimized for visual recognition, image reasoning, captioning, and answering general questions about an image. It accepts text and images as input and generates text as output.

AI2D

91.1%

i
DocVQA

88.4%

i
ChartQA

83.4%

i
VQAv2 (test)

75.2%

i
MMLU

73.0%

i
MGSM

68.9%

i
MATH

51.9%

i
MathVista

51.5%

i
MMMU

50.7%

i
MMMU-Pro

33.0%

i
GPQA

32.8%

i