MM-MT-Bench | BenchmarkList

Metadata

Score, Normalized Score

Rank	Subject	Score	Model Match	Provenance	Sampled
1	Mistral Large 3	84.90	—	Self-reported	2026-05-06
2	Qwen3 VL 235B A22B Instruct	8.50	Qwen3 VL 235B A22B Instruct qwen-qwen3-vl-235b-a22b-instruct	Self-reported	2026-05-06
2	Qwen3 VL 235B A22B Thinking	8.50	Qwen3 VL 235B A22B Thinking qwen-qwen3-vl-235b-a22b-thinking	Self-reported	2026-05-06
4	Qwen3 VL 32B Instruct	8.40	Qwen3 VL 32B Instruct qwen-qwen3-vl-32b-instruct	Self-reported	2026-05-06
5	Qwen3 VL 32B Thinking	8.30	—	Self-reported	2026-05-06
6	Qwen3 VL 30B A3B Instruct	8.10	Qwen3 VL 30B A3B Instruct qwen-qwen3-vl-30b-a3b-instruct	Self-reported	2026-05-06
7	Qwen3 VL 8B Thinking	8	Qwen3 VL 8B Thinking qwen-qwen3-vl-8b-thinking	Self-reported	2026-05-06
8	Qwen3 VL 30B A3B Thinking	7.90	Qwen3 VL 30B A3B Thinking qwen-qwen3-vl-30b-a3b-thinking	Self-reported	2026-05-06
9	Qwen3 VL 8B Instruct	7.70	Qwen3 VL 8B Instruct qwen-qwen3-vl-8b-instruct	Self-reported	2026-05-06
9	Qwen3 VL 4B Thinking	7.70	—	Self-reported	2026-05-06
11	Qwen3 VL 4B Instruct	7.50	—	Self-reported	2026-05-06
12	Pixtral Large	0.74	—	Self-reported	2026-05-06
13	Pixtral-12B	0.60	—	Self-reported	2026-05-06
14	MiniStral 3 (14B Instruct 2512)	0.08	—	Self-reported	2026-05-06
15	Ministral 3 (8B Instruct 2512)	0.08	—	Self-reported	2026-05-06
16	Ministral 3 (3B Instruct 2512)	0.08	—	Self-reported	2026-05-06
17	Qwen2.5-Omni-7B	0.06	—	Self-reported	2026-05-06