Qwen3 VL 30B A3B Instruct

Qwen3-VL is a large multimodal model that unifies vision, language, and reasoning to achieve human-level perception and cognition across text, images, and video. Built on a 235B-parameter architecture, it integrates early joint training of visual and textual modalities for strong language grounding.

DocVQAtest

95.0%

i
ScreenSpot

94.7%

i
OCRBench

90.3%

i
MMLU-Redux

88.4%

i
MMBench-V1.1

87.0%

i
IFEval

85.8%

i
CharXiv-D

85.5%

i
AI2D

85.0%

i
MMLU

85.0%

i
WritingBench

82.6%

i
InfoVQAtest

82.0%

i
MLVU-M

81.3%

i
CC-OCR

80.7%

i
MathVista-Mini

80.1%

i
MMLU-Pro

77.8%

i
Video-MME

74.5%

i
MMMU (val)

74.2%

i
RealWorldQA

73.7%

i
MVBench

72.3%

i
MMStar

72.1%

i
Include

71.6%

i
MMLU-ProX

70.9%

i
GPQA

70.4%

i
AIME 2025

69.3%

i
VideoMMMU

68.7%

i
BLINK

67.7%

i
BFCL-v3

66.3%

i
Multi-IF

66.1%

i
LiveBench 20241125

65.4%

i
CharadesSTA

63.5%

i
OCRBench-V2 (en)

63.2%

i
MuirBench

62.9%

i
LVBench

62.5%

i
Hallusion Bench

61.5%

i
ScreenSpot Pro

60.5%

i
MMMU-Pro

60.4%

i
MathVision

60.2%

i
Arena-Hard v2

58.5%

i
OCRBench-V2 (zh)

57.8%

i
SuperGPQA

53.1%

i
HMMT25

50.6%

i
CharXiv-R

48.9%

i
ODinW

47.5%

i
PolyMATH

44.3%

i
ERQA

43.0%

i
LiveCodeBench v6

42.6%

i
OSWorld

30.3%

i
SimpleQA

27.0%

i
MM-MT-Bench

8.1

i
Creative Writing v3

0.846

i

Pricing, uptime, and speed via OpenRouter — updated Jul 17, 2026, 04:19 AM.

Provider	Status	Input	Output	Limits	Uptime	Speed	Notes
Alibaba	available	$0.13/Mtok	$0.52/Mtok	131K tokens context 33K tokens max output	100.0% 5m 100.0%	481 ms p50 TTFT 39 tok/s p50
DeepInfra	available	$0.15/Mtok	$0.60/Mtok	262K tokens context 16K tokens max output	100.0% 5m 100.0%	308 ms p50 TTFT 20 tok/s p50	fp8
Novita	available	$0.20/Mtok	$0.70/Mtok	131K tokens context 33K tokens max output	99.5% 5m 99.2%	869 ms p50 TTFT 25 tok/s p50	bf16
Phala	available	$0.20/Mtok	$0.70/Mtok	128K tokens context 33K tokens max output	99.5% 5m 99.3%	1,345 ms p50 TTFT 17 tok/s p50
SiliconFlow	-2	$0.29/Mtok	$1.00/Mtok	262K tokens context 262K tokens max output	93% 5m 98%	2,521 ms p50 TTFT 8.0 tok/s p50	fp8