Claude 3 Haiku | BenchmarkList

Metadata

Claude Closed/API

Aliases: anthropic-claude-3-haiku, anthropic/claude-3-haiku, claude-3-haiku

Benchmark	Category	Rank	Score	Sampled
Tau2-Bench Telecom	Agentic	312	21.1%	2026-05-11
Terminal-Bench Hard	Agentic	338	0.8%	2026-05-11
ToolSandbox	Agentic	7	54.9	2026-05-27
BigCodeBench	Coding	57	39.40	2026-05-06
ENAMEL	Coding	9	0.39	2026-05-06
EvalPlus	Coding	24	68.85	2026-05-05
LiveCodeBench	Coding	28	20.20	2026-05-06
Long Code Arena	Coding	7	0.42	2026-05-06
MBPP+	Coding	21	68.80	2026-05-05
SciCode	Coding	376	18.6%	2026-05-11
GSMA Open Telco Leaderboard	Domain	56	45.84	2026-05-06
BenchLM	General Knowledge	102	24	2026-05-06
MixEval Chat	General Knowledge	31	42.80	2026-05-06
AgentHarm	Generalization	4	6.6%	2026-05-27
AgentHarm	Generalization	6	11.1%	2026-05-27
AgentHarm	Generalization	18	33.9%	2026-05-27
HELM AIR-Bench	Generalization	18	0.827011	2026-05-28
HELM Safety	Generalization	42	0.877981	2026-05-28
WildBench	Generalization	35	7.0126953125	2026-05-27
RubricEval	Instruction Following	8	2.73	2026-05-06
Artificial Analysis Intelligence Index	Intelligence	387	12.26	2026-05-11
HELM Lite	Intelligence	65	0.294206	2026-05-28
Humanity's Last Exam	Intelligence	421	3.9%	2026-05-11
MathVista	Intelligence	43	46.40	2026-05-06
HindiGen v1	Language	21	55.32	2026-05-06
BenchBench	Meta	73	0.45	2026-05-06
DROP	Reasoning	17	0.78	2026-05-06
GPQA Diamond	Reasoning	407	37.4%	2026-05-11
ZebraLogic	Reasoning	46	14.30	2026-05-06
X-Risks Leaderboard	Safety	9	13.06	2026-05-06
CritPt	Science	158	0%	2026-05-11
VNTL Leaderboard	Translation	22	67.19	2026-05-06