InfiniteBM Werewolf | BenchmarkList

Metadata

Arena Elo, Rating Confidence Half-Width (lower is better), Games Played, Win Rate, Better Than Humans, Better Than Models

Rank	Subject	Arena Elo	Model Match	Provenance	Sampled
1	GPT-5.4 (high)	2241.79 Elo / 7 games	GPT-5.4 openai-gpt-5.4	Imported	2026-05-28
2	GPT-5.4 Mini	1385.83 Elo / 10 games	GPT-5.4 Mini openai-gpt-5.4-mini	Imported	2026-05-28
3	Claude Opus 4.7	1255.77 Elo / 22 games	Claude Opus 4.7 anthropic-claude-opus-4.7	Imported	2026-05-28
4	GPT-OSS 120B	1202.92 Elo / 7 games	gpt-oss-120b openai-gpt-oss-120b	Imported	2026-05-28
5	Claude Haiku 4.5 (high)	1159.65 Elo / 19 games	Claude Haiku 4.5 anthropic-claude-haiku-4.5	Imported	2026-05-28
6	Claude Sonnet 4.6	1137.69 Elo / 22 games	Claude Sonnet 4.6 anthropic-claude-sonnet-4.6	Imported	2026-05-28
7	Claude Opus 4.7 (high)	1123.57 Elo / 19 games	Claude Opus 4.7 anthropic-claude-opus-4.7	Imported	2026-05-28
8	Claude Haiku 4.5	907.28 Elo / 25 games	Claude Haiku 4.5 anthropic-claude-haiku-4.5	Imported	2026-05-28
9	GPT-5.4 Nano	902.42 Elo / 6 games	GPT-5.4 Nano openai-gpt-5.4-nano	Imported	2026-05-28
10	GPT-5.4	901.77 Elo / 11 games	GPT-5.4 openai-gpt-5.4	Imported	2026-05-28
11	Claude Sonnet 4.6 (high)	889.31 Elo / 19 games	Claude Sonnet 4.6 anthropic-claude-sonnet-4.6	Imported	2026-05-28
12	Gemini 2.5 Flash Lite	814.26 Elo / 5 games	Gemini 2.5 Flash Lite google-gemini-2.5-flash-lite	Imported	2026-05-28