WritingBench

A comprehensive benchmark for evaluating large language models' generative writing capabilities across 6 core writing domains (Academic & Engineering, Finance & Business, Politics & Law, Literature & Art, Education, Advertising & Marketing) and 100 subdomains. Contains 1,239 queries with a query-dependent evaluation framework that dynamically generates 5 instance-specific assessment criteria for each writing task, using a fine-tuned critic model to score responses on style, format, and length dimensions.

15rows

scoreprimary metric

2026-05-06sampled

Metadata

ID: writingbench
Category: Writing
Release: 2025-03-07
Source: Source page
Snapshot: Snapshot source
Post: Announcement post

Metrics

Score, Normalized Score

Rank	Subject	Score	Model Match	Provenance	Sampled
1	Qwen3-235B-A22B-Thinking-2507	0.88	Qwen3 235B A22B Thinking 2507 qwen-qwen3-235b-a22b-thinking-2507	Self-reported	2026-05-06
2	Qwen3-Next-80B-A3B-Instruct	0.87	Qwen3 Next 80B A3B Instruct qwen-qwen3-next-80b-a3b-instruct	Self-reported	2026-05-06
3	Qwen3 VL 235B A22B Thinking	0.87	Qwen3 VL 235B A22B Thinking qwen-qwen3-vl-235b-a22b-thinking	Self-reported	2026-05-06
4	Qwen3 VL 32B Thinking	0.86	—	Self-reported	2026-05-06
5	Qwen3 VL 8B Thinking	0.85	Qwen3 VL 8B Thinking qwen-qwen3-vl-8b-thinking	Self-reported	2026-05-06
5	Qwen3 VL 235B A22B Instruct	0.85	Qwen3 VL 235B A22B Instruct qwen-qwen3-vl-235b-a22b-instruct	Self-reported	2026-05-06
7	Qwen3 VL 30B A3B Thinking	0.85	Qwen3 VL 30B A3B Thinking qwen-qwen3-vl-30b-a3b-thinking	Self-reported	2026-05-06
7	Qwen3-235B-A22B-Instruct-2507	0.85	Qwen3 235B A22B Instruct 2507 qwen-qwen3-235b-a22b-2507	Self-reported	2026-05-06
9	Qwen3-Next-80B-A3B-Thinking	0.85	Qwen3 Next 80B A3B Thinking qwen-qwen3-next-80b-a3b-thinking	Self-reported	2026-05-06
10	Qwen3 VL 4B Thinking	0.84	—	Self-reported	2026-05-06
11	Qwen3 VL 8B Instruct	0.83	Qwen3 VL 8B Instruct qwen-qwen3-vl-8b-instruct	Self-reported	2026-05-06
12	Qwen3 VL 32B Instruct	0.83	Qwen3 VL 32B Instruct qwen-qwen3-vl-32b-instruct	Self-reported	2026-05-06
13	Qwen3 VL 30B A3B Instruct	0.83	Qwen3 VL 30B A3B Instruct qwen-qwen3-vl-30b-a3b-instruct	Self-reported	2026-05-06
14	Qwen3 VL 4B Instruct	0.82	—	Self-reported	2026-05-06
15	Kimi K2-Thinking-0905	0.74	KIMI MoonshotAI: Kimi K2 Thinking moonshotai-kimi-k2-thinking	Self-reported	2026-05-06

Metadata

Metrics

Latest Results