Qwen2.5 VL 72B Instruct

Qwen2.5-VL is the new flagship vision-language model of Qwen, significantly improved from Qwen2-VL. It excels at recognizing objects, analyzing text/charts/layouts in images, acting as a visual agent, understanding long videos (over 1 hour) with event pinpointing, performing visual localization (bounding boxes/points), and generating structured outputs from documents.

DocVQA

96.4%

i
Android Control Low_EM

93.7%

i
ChartQA

89.5%

i
OCRBench

88.5%

i
AI2D

88.4%

i
MMBench

88.0%

i
ScreenSpot

87.1%

i
AITZ_EM

83.2%

i
CC-OCR

79.8%

i
EgoSchema

76.2%

i
MMVet

76.2%

i
MathVista-Mini

74.8%

i
TempCompass

74.8%

i
MLVU-M

74.6%

i
VideoMME w/o sub.

73.3%

i
PerceptionTest

73.2%

i
MMStar

70.8%

i
MVBench

70.4%

i
MMMU

70.2%

i
MobileMiniWob++_SR

68.0%

i
Android Control High_EM

67.4%

i
OCRBench-V2 (en)

61.5%

i
Hallusion Bench

55.2%

i
MMMU-Pro

51.1%

i
LVBench

47.3%

i
ScreenSpot Pro

43.6%

i
MathVision

38.1%

i
AndroidWorld_SR

35.0%

i
OSWorld

8.8%

i
MMBench-Video

2.0%

i

Pricing, uptime, and speed via OpenRouter — updated Jul 17, 2026, 04:19 AM.

Provider	Status	Input	Output	Limits	Uptime	Speed	Notes
Nebius	available	$0.25/Mtok	$0.75/Mtok	32K tokens context 128K tokens max output	99.8% 5m 100.0%	409 ms p50 TTFT 31 tok/s p50	fp8
Parasail	available	$0.80/Mtok cache $0.40/Mtok	$1.00/Mtok	128K tokens context 128K tokens max output	99.9% 5m 100.0%	1,249 ms p50 TTFT 24 tok/s p50	fp8