Llama 4 Maverick

Llama 4 Maverick is a natively multimodal model capable of processing both text and images. It features a 17 billion active parameter mixture-of-experts (MoE) architecture with 128 experts, supporting a wide range of multimodal tasks such as conversational interaction, image analysis, and code generation.

DocVQA

94.4%

i
MGSM

92.3%

i
ChartQA

90.0%

i
MMLU

85.5%

i
MMLU-Pro

80.5%

i
MBPP

77.6%

i
MathVista

73.7%

i
MMMU

73.4%

i
GPQA

69.8%

i
MATH

61.2%

i
MMMU-Pro

59.6%

i
LiveCodeBench

43.4%

i
TydiQA

31.7%

i

Pricing, uptime, and speed via OpenRouter — updated Jul 17, 2026, 04:19 AM.

Provider	Status	Input	Output	Limits	Uptime	Speed	Notes
DeepInfra	available	$0.20/Mtok	$0.80/Mtok	1.0M tokens context 16K tokens max output	99.9% 5m 100.0%	272 ms p50 TTFT 34 tok/s p50	fp8
DigitalOcean	available	$0.25/Mtok	$0.87/Mtok	128K tokens context 16K tokens max output	100.0% 5m 100.0%	342 ms p50 TTFT 17 tok/s p50
Novita	available	$0.27/Mtok	$0.85/Mtok	1.0M tokens context 8K tokens max output	99.9% 5m 100.0%	464 ms p50 TTFT 26 tok/s p50	fp8
Parasail	available	$0.35/Mtok cache $0.17/Mtok	$1.00/Mtok	524K tokens context 33K tokens max output	100.0% 5m 99.9%	345 ms p50 TTFT 25 tok/s p50	fp8
Google	available	$0.35/Mtok	$1.15/Mtok	524K tokens context 8K tokens max output	99.2% 5m 100.0%	566 ms p50 TTFT 38 tok/s p50