Gemma 4 31B

Gemma 4 31B is Google DeepMind's flagship dense multimodal model with 31 billion parameters and a 256K context window. Ranks #3 among open models on Arena AI.

AIME 2026

89.2%

i
MMMLU

88.4%

i
t2-bench

86.4%

i
MathVision

85.6%

i
MMLU-Pro

85.2%

i
GPQA

84.3%

i
LiveCodeBench v6

80.0%

i
MMMU-Pro

76.9%

i
BIG-Bench Extra Hard

74.4%

i
MRCR v2

66.4%

i
MedXpertQA

61.3%

i
Humanity's Last Exam

26.5%

i

Pricing, uptime, and speed via OpenRouter — updated Jul 17, 2026, 04:19 AM.

Provider	Status	Input	Output	Limits	Uptime	Speed	Notes
WandB	available	$0.12/Mtok cache $0.09/Mtok	$0.35/Mtok	262K tokens context 262K tokens max output	100.0% 5m 100.0%	508 ms p50 TTFT 37 tok/s p50	bf16
Venice	available	$0.12/Mtok cache $0.09/Mtok	$0.36/Mtok	256K tokens context 8K tokens max output	99.6% 5m 99.9%	1,247 ms p50 TTFT 30 tok/s p50	bf16
DeepInfra	available	$0.13/Mtok	$0.38/Mtok	262K tokens context 16K tokens max output	99.4% 5m 99.5%	699 ms p50 TTFT 29 tok/s p50	fp8
Novita	available	$0.14/Mtok	$0.40/Mtok	262K tokens context 131K tokens max output	99% 5m 99.8%	1,511 ms p50 TTFT 15 tok/s p50	bf16
Parasail	available	$0.15/Mtok cache $0.06/Mtok	$0.40/Mtok	262K tokens context 262K tokens max output	98% 5m 99%	785 ms p50 TTFT 25 tok/s p50	fp8
Phala	available	$0.15/Mtok cache $0.07/Mtok	$0.46/Mtok	262K tokens context 262K tokens max output	95% 5m 74%	2,084 ms p50 TTFT 17 tok/s p50
ModelRun	available	$0.22/Mtok cache $0.12/Mtok	$0.55/Mtok	262K tokens context 262K tokens max output	100.0% 5m 100.0%	460 ms p50 TTFT 144 tok/s p50	fp4
SambaNova	available	$0.38/Mtok	$1.15/Mtok	131K tokens context 131K tokens max output	100.0% 5m 100.0%	2,233 ms p50 TTFT 94 tok/s p50
Together	available	$0.39/Mtok	$0.97/Mtok	262K tokens context 33K tokens max output	99.8% 5m 99.8%	185 ms p50 TTFT 32 tok/s p50
Cerebras	available	$0.99/Mtok cache $0.99/Mtok	$1.49/Mtok	131K tokens context 41K tokens max output	100.0% 5m 100.0%	202 ms p50 TTFT 39 tok/s p50	fp16
OpenInference	-2	$0.10/Mtok cache $0.10/Mtok	$0.35/Mtok	262K tokens context 8K tokens max output	94% 5m 92%	496 ms p50 TTFT 79 tok/s p50	bf16
Chutes	-2	$0.12/Mtok cache $0.06/Mtok	$0.37/Mtok	131K tokens context 66K tokens max output	95% 5m 73%	1,694 ms p50 TTFT 13 tok/s p50	fp4
SiliconFlow	-5	$0.13/Mtok	$0.40/Mtok	262K tokens context 262K tokens max output	1%	1,123 ms p50 TTFT 68 tok/s p50	fp8