GPT OSS 120B

GPT-OSS-120B is an open-weight, 116.8B-parameter Mixture-of-Experts (MoE) language model from OpenAI designed for high-reasoning, agentic, and general-purpose production use cases. It activates 5.1B parameters per forward pass and is optimized to run on a single H100 GPU with native MXFP4 quantization.

MMLU

90.0%

i
CodeForces

82.1%

i
CodeForces

82.1%

i
GPQA

80.1%

i
TAU-bench Retail

67.8%

i
HealthBench

57.6%

i
HealthBench Hard

30.0%

i
Humanity's Last Exam

14.9%

i
Humanity's Last Exam

14.9%

i

Pricing, uptime, and speed via OpenRouter — updated Jul 17, 2026, 04:19 AM.

Provider	Status	Input	Output	Limits	Uptime	Speed	Notes
WandB	available	$0.04/Mtok cache $0.04/Mtok	$0.14/Mtok	131K tokens context 131K tokens max output	100.0% 5m 100.0%	407 ms p50 TTFT 47 tok/s p50	fp4
Mancer 2	available	$0.04/Mtok	$0.38/Mtok	131K tokens context 131K tokens max output	100.0% 5m 100.0%	779 ms p50 TTFT 56 tok/s p50	fp4
Novita	available	$0.05/Mtok	$0.25/Mtok	131K tokens context 33K tokens max output	99.5% 5m 99.9%	457 ms p50 TTFT 87 tok/s p50	fp4
DigitalOcean	available	$0.07/Mtok cache $0.02/Mtok	$0.49/Mtok	128K tokens context 131K tokens max output	100.0% 5m 99.9%	649 ms p50 TTFT 49 tok/s p50
Google	available	$0.09/Mtok	$0.36/Mtok	131K tokens context 131K tokens max output	99% 5m 98%	372 ms p50 TTFT 101 tok/s p50
BaseTen	available	$0.10/Mtok cache $0.10/Mtok	$0.50/Mtok	128K tokens context 128K tokens max output	99.9% 5m 100.0%	285 ms p50 TTFT 254 tok/s p50	fp4
Parasail	available	$0.10/Mtok cache $0.06/Mtok	$0.75/Mtok	131K tokens context 131K tokens max output	99% 5m 98%	361 ms p50 TTFT 129 tok/s p50	fp4
SambaNova	available	$0.14/Mtok	$0.95/Mtok	131K tokens context 131K tokens max output	99.6% 5m 99%	1,231 ms p50 TTFT 146 tok/s p50
Amazon Bedrock	available	$0.15/Mtok	$0.60/Mtok	131K tokens context 131K tokens max output	—	—
DeepInfra	available	$0.15/Mtok	$0.60/Mtok	131K tokens context 16K tokens max output	99.9% 5m 100.0%	565 ms p50 TTFT 165 tok/s p50	bf16
Groq	available	$0.15/Mtok cache $0.07/Mtok	$0.60/Mtok	131K tokens context 66K tokens max output	100.0% 5m 100.0%	199 ms p50 TTFT 307 tok/s p50
Phala	available	$0.15/Mtok	$0.60/Mtok	131K tokens context 131K tokens max output	100.0% 5m 100.0%	1,120 ms p50 TTFT 82 tok/s p50
Together	available	$0.15/Mtok	$0.60/Mtok	131K tokens context 131K tokens max output	98% 5m 97%	276 ms p50 TTFT 92 tok/s p50
Cerebras	available	$0.35/Mtok cache $0.35/Mtok	$0.75/Mtok	131K tokens context 41K tokens max output	100.0% 5m 100.0%	248 ms p50 TTFT 675 tok/s p50	fp16
DekaLLM	-2	$0.03/Mtok	$0.18/Mtok	131K tokens context 131K tokens max output	93% 5m 93%	1,004 ms p50 TTFT 33 tok/s p50	bf16
SiliconFlow	-2	$0.05/Mtok	$0.45/Mtok	131K tokens context 8K tokens max output	86% 5m 78%	2,290 ms p50 TTFT 17 tok/s p50	fp8
Nebius	-5	$0.15/Mtok	$0.60/Mtok	131K tokens context 131K tokens max output	77% 5m 100.0%	690 ms p50 TTFT 155 tok/s p50	fp4
Mara	-5	$0.15/Mtok	$0.75/Mtok	131K tokens context 131K tokens max output	55% 5m 99.3%	2,698 ms p50 TTFT 141 tok/s p50