DeepSearchQA | BenchmarkList

Metadata

Score, Normalized Score

Showing 2 latest source slices.

Rank	Subject	Score	Model Match	Provenance	Sampled
1	Claude Mythos Preview	94.4%	Claude Mythos Preview anthropic-claude-mythos-preview	Self-reported	2026-05-28
2	Claude Opus 4.8	93.1%	Claude Opus 4.8 anthropic-claude-opus-4.8	Self-reported	2026-05-28
3	Claude Opus 4.7	89.4%	Claude Opus 4.7 anthropic-claude-opus-4.7	Self-reported	2026-05-28
4	Claude Opus 4.6	88.7%	Claude Opus 4.6 anthropic-claude-opus-4.6	Self-reported	2026-05-28
1	Claude Opus 4.6	0.91	Claude Opus 4.6 anthropic-claude-opus-4.6	Self-reported	2026-05-06
2	MiMo-V2-Pro	0.87	MiMo-V2-Pro xiaomi-mimo-v2-pro	Self-reported	2026-05-06
3	Kimi K2.6	0.83	KIMI MoonshotAI: Kimi K2.6 moonshotai-kimi-k2.6	Self-reported	2026-05-06
4	Kimi K2.5	0.77	KIMI MoonshotAI: Kimi K2.5 moonshotai-kimi-k2.5	Self-reported	2026-05-06
5	Muse Spark	0.75	—	Self-reported	2026-05-06