GLM-5

GLM-5 is Zhipu AI's flagship foundation model designed for complex system engineering and long-range Agent tasks, shifting focus from coding to engineering. It features 744B total parameters (40B activated) in a Mixture of Experts architecture, trained on 28.5T tokens.

t2-bench

89.7%

i
SWE-Bench Verified

77.8%

i
BrowseComp

75.9%

i
MCP Atlas

67.8%

i
Terminal-Bench 2.0

56.2%

i

Pricing, uptime, and speed via OpenRouter — updated Jul 17, 2026, 04:19 AM.

Provider	Status	Input	Output	Limits	Uptime	Speed	Notes
StreamLake	available	$0.60/Mtok cache $0.12/Mtok	$1.92/Mtok	198K tokens context 128K tokens max output	98% 5m 97%	5,498 ms p50 TTFT 24 tok/s p50	fp8
DeepInfra	available	$0.60/Mtok cache $0.12/Mtok	$2.08/Mtok	203K tokens context 16K tokens max output	99.9% 5m 100.0%	1,014 ms p50 TTFT 16 tok/s p50	fp4
Baidu	available	$0.70/Mtok cache $0.14/Mtok	$2.24/Mtok	203K tokens context 131K tokens max output	99.3% 5m 100.0%	1,185 ms p50 TTFT 31 tok/s p50	fp8 cache
Chutes	available	$0.95/Mtok cache $0.47/Mtok	$2.55/Mtok	203K tokens context 66K tokens max output	—	3,309 ms p50 TTFT 28 tok/s p50	fp8
SiliconFlow	available	$0.95/Mtok cache $0.20/Mtok	$2.55/Mtok	205K tokens context 131K tokens max output	99.8% 5m 99.4%	3,399 ms p50 TTFT 22 tok/s p50	fp8
AtlasCloud	available	$0.95/Mtok cache $0.19/Mtok	$3.15/Mtok	203K tokens context 203K tokens max output	99.8% 5m 99.4%	5,382 ms p50 TTFT 20 tok/s p50	fp8
Novita	available	$1.00/Mtok cache $0.20/Mtok	$3.20/Mtok	203K tokens context 131K tokens max output	100.0% 5m 100.0%	5,513 ms p50 TTFT 17 tok/s p50	fp8
Parasail	available	$1.00/Mtok cache $0.20/Mtok	$3.20/Mtok	203K tokens context 131K tokens max output	96% 5m 87%	3,603 ms p50 TTFT 19 tok/s p50	fp8
Venice	available	$1.00/Mtok cache $0.20/Mtok	$3.20/Mtok	198K tokens context 32K tokens max output	99.3% 5m 100.0%	1,745 ms p50 TTFT 21 tok/s p50	fp8
Z.AI	available	$1.00/Mtok cache $0.20/Mtok	$3.20/Mtok	203K tokens context 131K tokens max output	99.5% 5m 99.8%	7,525 ms p50 TTFT 27 tok/s p50	fp8
Phala	available	$1.20/Mtok cache $0.47/Mtok	$3.50/Mtok	203K tokens context 203K tokens max output	—	3,395 ms p50 TTFT 27 tok/s p50
GMICloud	-5	$0.60/Mtok cache $0.12/Mtok	$1.92/Mtok	203K tokens context 203K tokens max output	78% 5m 90%	2,156 ms p50 TTFT 10 tok/s p50	fp8
DigitalOcean	-2	$0.75/Mtok cache $0.20/Mtok	$2.40/Mtok	64K tokens context 203K tokens max output	92%	2,258 ms p50 TTFT 4.0 tok/s p50
Amazon Bedrock	-5	$1.00/Mtok	$3.20/Mtok	203K tokens context 131K tokens max output	8%	2,912 ms p50 TTFT 28 tok/s p50