GLM 5 | BenchmarkList

Metadata

GLM Open source

Aliases: glm-5, glm-5-20260211, z-ai-glm-5, z-ai-glm-5-20260211, z-ai/glm-5, z-ai/glm-5-20260211

Benchmark	Category	Rank	Score	Sampled
APEX-Agents	Agentic	21	30.80	2026-05-06
APEX-Agents-AA	Agentic	11	14.5%	2026-05-11
APEX-v1-extended	Agentic	2	49	2026-05-06
ARC-AGI-1	Agentic	70	44.67	2026-05-05
ARC-AGI-2	Agentic	69	4.86	2026-05-05
AutoLab	Agentic	4	0.60	2026-05-06
Claw-Eval-Live	Agentic	4	61.9	2026-05-27
EnterpriseOps-Gym	Agentic	15	22.2%	2026-05-05
Gert Labs Rankings	Agentic	26	0.49	2026-05-11
PinchBench	Agentic	20	0.86	2026-05-06
RuneBench	Agentic	15	1.90	2026-05-05
t2-bench	Agentic	3	0.90	2026-05-06
Tau2-Bench Telecom	Agentic	4	98.2%	2026-05-11
Tau2-Bench Telecom	Agentic	8	97.4%	2026-05-11
Terminal-Bench Hard	Agentic	25	43.2%	2026-05-11
Terminal-Bench Hard	Agentic	39	39.4%	2026-05-11
Vending-Bench 2	Agentic	15	4432.12	2026-05-28
WildClawBench	Agentic	3	42.60	2026-05-06
YC-Bench	Agentic	2	1208190	2026-05-06
OpenUGI	Alignment	43	54.56	2026-05-06
OpenUGI	Alignment	628	33.71	2026-05-06
ALE-Bench	Coding	46	765.63	2026-05-06
Arena AI Code	Coding	23	1436	2026-05-06
IOI	Coding	12	22%	2026-05-26
LiveCodeBench	Coding	36	81.868%	2026-05-28
LMArena WebDev Arena	Coding	23	1435.92	2026-05-06
SciCode	Coding	36	46.2%	2026-05-11
SciCode	Coding	132	38.3%	2026-05-11
SWE Atlas - Codebase QnA	Coding	7	20.50	2026-05-06
SWE Atlas - Refactoring	Coding	8	24.24	2026-05-06
SWE Atlas - Test Writing	Coding	2	28.74	2026-05-06
SWE-bench Verified	Coding	27	71.4%	2026-05-28
Terminal-Bench 2.0	Coding	21	49.438%	2026-05-28
TuRTLe Code Completion (Icarus Verilog)	Coding	1	83.98	2026-05-06
TuRTLe Code Completion (Verilator)	Coding	1	82.23	2026-05-06
TuRTLe Spec-to-RTL (Icarus Verilog)	Coding	3	79.46	2026-05-06
TuRTLe Spec-to-RTL (Verilator)	Coding	3	78.17	2026-05-06
Vibe Code Bench v1.1	Coding	20	23.359%	2026-05-28
OrgForge-IT	Cybersecurity	6	0.800	2026-05-28
SecCodeBench	Cybersecurity	5	62.13%	2026-05-28
Vectara HHEM Hallucination Leaderboard	Factuality	55	89.90	2026-05-06
CorpFin v2	Finance	29	62.898%	2026-05-28
Finance Agent v1.1	Finance	21	53.182%	2026-05-04
TaxEval v2	Finance	67	70.033%	2026-05-28
React Native Evals	Frontend Development	12	74.8352% overall	2026-05-28
ALL Bench LLM	General Knowledge	7	48.85	2026-05-06
BenchLM	General Knowledge	17	82	2026-05-06
BenchLM	General Knowledge	35	67	2026-05-06
MedQA	Healthcare	18	94.267%	2026-04-16
AIIQ Composite IQ	Intelligence	19	113	2026-05-12
Artificial Analysis Intelligence Index	Intelligence	22	49.77	2026-05-11
Artificial Analysis Intelligence Index	Intelligence	73	40.57	2026-05-11
GPQA Diamond	Intelligence	31	83.333%	2026-05-28
Humanity's Last Exam	Intelligence	36	27.2%	2026-05-11
Humanity's Last Exam	Intelligence	205	7.2%	2026-05-11
LiveBench	Intelligence	36	68.70	2026-05-05
MMLU Pro	Intelligence	29	86.03%	2026-05-28
AraGen v3	Language	27	46.01	2026-05-06
CaseLaw v2	Legal	45	52.519%	2026-05-04
LegalBench	Legal	21	84.059%	2026-05-28
AIME	Math	23	91.667%	2026-04-16
AIME 2026	Mathematics	3	95.83	2026-05-06
HMMT February 2026	Mathematics	4	86.36	2026-05-06
ALL Bench Multimodal	Multimodal	6	44.06	2026-05-06
Design Arena	Multimodal	12	1308	2026-05-06
Artificial Analysis Openness Index	Openness	55	50	2026-05-11
Altered Riddles	Reasoning	8	0.3460	2026-05-27
FINAL Bench Metacognitive	Reasoning	4	76.38	2026-05-06
GPQA Diamond	Reasoning	86	82%	2026-05-11
GPQA Diamond	Reasoning	235	66.6%	2026-05-11
InvisibleBench	Safety	5	0.05	2026-05-06
LiveSecBench	Safety	18	56.73	2026-05-27
CritPt	Science	59	2%	2026-05-11
CritPt	Science	211	0%	2026-05-11

Metadata

Benchmark Results