Phi-4-multimodal-instruct

Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length.

ScienceQA Visual

97.5%

i
DocVQA

93.2%

i
MMBench

86.7%

i
POPE

85.6%

i
OCRBench

84.4%

i
AI2D

82.3%

i
ChartQA

81.4%

i
TextVQA

75.6%

i
InfoVQA

72.7%

i
MathVista

62.4%

i
BLINK

61.3%

i
MMMU

55.1%

i
Video-MME

55.0%

i
InterGPS

48.6%

i
MMMU-Pro

38.5%

i