ArxivMath | BenchmarkList

Metadata

Score

Rank	Subject	Score	Model Match	Provenance	Sampled
1	Claude Opus 4.8	71.8%	Claude Opus 4.8 anthropic-claude-opus-4.8	Self-reported	2026-05-28
2	GPT-5.5	71.5%	GPT-5.5 openai-gpt-5.5	Self-reported	2026-05-28
3	Gemini 3.1 Pro Preview	64.8%	Gemini 3.1 Pro Preview google-gemini-3.1-pro-preview	Self-reported	2026-05-28