WritingBench

communication

A comprehensive benchmark for evaluating large language models' generative writing capabilities across 6 core writing domains (Academic & Engineering, Finance & Business, Politics & Law, Literature & Art, Education, Advertising & Marketing) and 100 subdomains. Contains 1,239 queries with a query-dependent evaluation framework that dynamically generates 5 instance-specific assessment criteria for each writing task, using a fine-tuned critic model to score responses on style, format, and length dimensions.

Leaderboard

Showing 15 of 15 results

Qwen3-235B-A22B-Thinking-2507

88.3%

i
Qwen3-Next-80B-A3B-Instruct

87.3%

i
Qwen3 VL 235B A22B Thinking

86.7%

i
Qwen3 VL 32B Thinking

86.2%

i
Qwen3 VL 235B A22B Instruct

85.5%

i
Qwen3 VL 8B Thinking

85.5%

i
Qwen3-235B-A22B-Instruct-2507

85.2%

i
Qwen3 VL 30B A3B Thinking

85.2%

i
Qwen3-Next-80B-A3B-Thinking

84.6%

i
Qwen3 VL 4B Thinking

84.0%

i
Qwen3 VL 8B Instruct

83.1%

i
Qwen3 VL 32B Instruct

82.9%

i
Qwen3 VL 30B A3B Instruct

82.6%

i
Qwen3 VL 4B Instruct

82.5%

i
Kimi K2-Thinking-0905

73.8%

i