MMLU-ProX | BenchmarkList

Metadata

ID: mmlu_prox
Category: General Knowledge
Release: 2025-03-13
Source: Source page
Snapshot: Snapshot source
Post: Announcement post

Metrics

Score, Normalized Score

Showing 2 latest source slices.

Rank	Subject	Score	Model Match	Provenance	Sampled
1	Qwen3.7 Max	87%	Qwen3.7 Max qwen-qwen3.7-max	Self-reported	2026-05-28
2	Claude Opus 4.6 Max	86.1%	Claude Opus 4.6 anthropic-claude-opus-4.6	Self-reported	2026-05-28
3	Qwen3.6 Plus	84.7%	Qwen3.6 Plus qwen-qwen3.6-plus	Self-reported	2026-05-28
4	DeepSeek V4 Pro Max	83.9%	DeepSeek V4 Pro deepseek-deepseek-v4-pro	Self-reported	2026-05-28
5	GLM-5.1 Thinking	83.9%	GLM GLM 5.1 z-ai-glm-5.1	Self-reported	2026-05-28
6	Kimi K2.6 Thinking	83.7%	KIMI MoonshotAI: Kimi K2.6 moonshotai-kimi-k2.6	Self-reported	2026-05-28
1	Qwen3.6 Plus	0.85	Qwen3.6 Plus qwen-qwen3.6-plus	Self-reported	2026-05-06
1	Qwen3.5-397B-A17B	0.85	Qwen3.5 397B A17B qwen-qwen3.5-397b-a17b	Self-reported	2026-05-06
3	Qwen3.5-122B-A10B	0.82	Qwen3.5-122B-A10B qwen-qwen3.5-122b-a10b	Self-reported	2026-05-06
3	Qwen3.5-27B	0.82	Qwen3.5-27B qwen-qwen3.5-27b	Self-reported	2026-05-06
5	Qwen3.5-35B-A3B	0.81	Qwen3.5-35B-A3B qwen-qwen3.5-35b-a3b	Self-reported	2026-05-06
5	Qwen3-235B-A22B-Thinking-2507	0.81	Qwen3 235B A22B Thinking 2507 qwen-qwen3-235b-a22b-thinking-2507	Self-reported	2026-05-06
7	Qwen3 VL 235B A22B Thinking	0.81	Qwen3 VL 235B A22B Thinking qwen-qwen3-vl-235b-a22b-thinking	Self-reported	2026-05-06
8	Qwen3-235B-A22B-Instruct-2507	0.79	Qwen3 235B A22B Instruct 2507 qwen-qwen3-235b-a22b-2507	Self-reported	2026-05-06
9	Nemotron 3 Super (120B A12B)	0.79	Nemotron 3 Super nvidia-nemotron-3-super-120b-a12b	Self-reported	2026-05-06
10	Qwen3-Next-80B-A3B-Thinking	0.79	Qwen3 Next 80B A3B Thinking qwen-qwen3-next-80b-a3b-thinking	Self-reported	2026-05-06
11	Qwen3 VL 235B A22B Instruct	0.78	Qwen3 VL 235B A22B Instruct qwen-qwen3-vl-235b-a22b-instruct	Self-reported	2026-05-06
12	Qwen3 VL 32B Thinking	0.77	—	Self-reported	2026-05-06
13	Qwen3-Next-80B-A3B-Instruct	0.77	Qwen3 Next 80B A3B Instruct qwen-qwen3-next-80b-a3b-instruct	Self-reported	2026-05-06
14	Qwen3.5-9B	0.76	Qwen3.5-9B qwen-qwen3.5-9b	Self-reported	2026-05-06
15	Qwen3 VL 30B A3B Thinking	0.76	Qwen3 VL 30B A3B Thinking qwen-qwen3-vl-30b-a3b-thinking	Self-reported	2026-05-06
16	Qwen3 VL 32B Instruct	0.73	Qwen3 VL 32B Instruct qwen-qwen3-vl-32b-instruct	Self-reported	2026-05-06
17	Qwen3.5-4B	0.71	—	Self-reported	2026-05-06
18	Qwen3 VL 30B A3B Instruct	0.71	Qwen3 VL 30B A3B Instruct qwen-qwen3-vl-30b-a3b-instruct	Self-reported	2026-05-06
19	Qwen3 VL 8B Thinking	0.71	Qwen3 VL 8B Thinking qwen-qwen3-vl-8b-thinking	Self-reported	2026-05-06
20	Qwen3 VL 8B Instruct	0.65	Qwen3 VL 8B Instruct qwen-qwen3-vl-8b-instruct	Self-reported	2026-05-06
21	Qwen3 VL 4B Thinking	0.65	—	Self-reported	2026-05-06
22	Nemotron 3 Nano (30B A3B)	0.59	Nemotron 3 Nano 30B A3B nvidia-nemotron-3-nano-30b-a3b	Self-reported	2026-05-06
23	Qwen3 VL 4B Instruct	0.59	—	Self-reported	2026-05-06
24	Qwen3.5-2B	0.52	—	Self-reported	2026-05-06
25	Qwen3.5-0.8B	0.35	—	Self-reported	2026-05-06
26	Gemma 3n E4B Instructed	0.20	Gemma 3n 4B google-gemma-3n-e4b-it	Self-reported	2026-05-06
26	Gemma 3n E4B Instructed LiteRT Preview	0.20	Gemma 3n 4B google-gemma-3n-e4b-it	Self-reported	2026-05-06
28	Gemma 3n E2B Instructed LiteRT (Preview)	0.08	Gemma 3n 2B google-gemma-3n-e2b-it	Self-reported	2026-05-06
28	Gemma 3n E2B Instructed	0.08	Gemma 3n 2B google-gemma-3n-e2b-it	Self-reported	2026-05-06

Metadata

Metrics

Latest Results