MathArena Apex | BenchmarkList

Metadata

Score, Normalized Score

Showing 2 latest source slices.

Rank	Subject	Score	Model Match	Provenance	Sampled
1	Qwen3.7 Max	44.5%	Qwen3.7 Max qwen-qwen3.7-max	Self-reported	2026-05-28
2	DeepSeek V4 Pro Max	38.3%	DeepSeek V4 Pro deepseek-deepseek-v4-pro	Self-reported	2026-05-28
3	Claude Opus 4.6 Max	34.5%	Claude Opus 4.6 anthropic-claude-opus-4.6	Self-reported	2026-05-28
4	Kimi K2.6 Thinking	24%	KIMI MoonshotAI: Kimi K2.6 moonshotai-kimi-k2.6	Self-reported	2026-05-28
5	GLM-5.1 Thinking	11.5%	GLM GLM 5.1 z-ai-glm-5.1	Self-reported	2026-05-28
6	Qwen3.6 Plus	8.8%	Qwen3.6 Plus qwen-qwen3.6-plus	Self-reported	2026-05-28
1	DeepSeek-V4-Pro-Max	0.90	DeepSeek V4 Pro deepseek-deepseek-v4-pro	Self-reported	2026-05-06
2	DeepSeek-V4-Flash-Max	0.86	DeepSeek V4 Flash deepseek-deepseek-v4-flash	Self-reported	2026-05-06
3	Gemini 3 Pro	0.23	Gemini 3 google-gemini-3	Self-reported	2026-05-06