Tau2-Bench Telecom | BenchmarkList

Metadata

ID: tau2_bench_telecom
Category: Agentic
Release: 2025-06-09
Source: Source page
Snapshot: Snapshot source
Post: Announcement post

Metrics

Success Rate

Showing 2 latest source slices.

Rank	Subject	Success Rate	Model Match	Provenance	Sampled
1	GLM-4.7-Flash (Reasoning)	98.8%	GLM GLM 4.7 Flash z-ai-glm-4.7-flash	Imported	2026-05-11
2	GLM 5V Turbo (Reasoning)	98.5%	GLM GLM 5V Turbo z-ai-glm-5v-turbo	Imported	2026-05-11
3	GLM-5-Turbo	98.5%	GLM GLM 5 Turbo z-ai-glm-5-turbo	Imported	2026-05-11
4	GLM-5 (Reasoning)	98.2%	GLM GLM 5 z-ai-glm-5	Imported	2026-05-11
5	GLM-5.1 (Reasoning)	97.7%	GLM GLM 5.1 z-ai-glm-5.1	Imported	2026-05-11
6	Grok 4.3	97.7%	GROK Grok 4.3 x-ai-grok-4.3	Imported	2026-05-11
7	Qwen3.6 Plus	97.7%	Qwen3.6 Plus qwen-qwen3.6-plus	Imported	2026-05-11
8	GLM-5 (Non-reasoning)	97.4%	GLM GLM 5 z-ai-glm-5	Imported	2026-05-11
9	GLM-5.1 (Non-reasoning)	97.1%	GLM GLM 5.1 z-ai-glm-5.1	Imported	2026-05-11
10	Grok 4.20 0309 (Reasoning)	96.5%	GROK Grok 4.20 x-ai-grok-4.20	Imported	2026-05-11
11	DeepSeek V4 Pro (Reasoning, Max Effort)	96.2%	DeepSeek V4 Pro deepseek-deepseek-v4-pro	Imported	2026-05-11
12	GLM-4.7 (Reasoning)	95.9%	GLM GLM 4.7 z-ai-glm-4.7	Imported	2026-05-11
13	Kimi K2.5 (Reasoning)	95.9%	KIMI MoonshotAI: Kimi K2.5 moonshotai-kimi-k2.5	Imported	2026-05-11
14	Kimi K2.6	95.9%	KIMI MoonshotAI: Kimi K2.6 moonshotai-kimi-k2.6	Imported	2026-05-11
15	Qwen3.6 Max Preview	95.9%	Qwen3.6 Max Preview qwen-qwen3.6-max-preview	Imported	2026-05-11
16	DeepSeek V4 Flash (Reasoning, High Effort)	95.6%	DeepSeek V4 Flash deepseek-deepseek-v4-flash	Imported	2026-05-11
17	Gemini 3.1 Pro Preview	95.6%	Gemini 3.1 Pro Preview google-gemini-3.1-pro-preview	Imported	2026-05-11
18	Qwen3.5 397B A17B (Reasoning)	95.6%	Qwen3.5 397B A17B qwen-qwen3.5-397b-a17b	Imported	2026-05-11
19	MiniMax-M2.5	95.3%	MiniMax M2.5 minimax-minimax-m2.5	Imported	2026-05-11
20	Qwen3.6 35B A3B (Reasoning)	95.3%	Qwen3.6 35B A3B qwen-qwen3.6-35b-a3b	Imported	2026-05-11
21	DeepSeek V4 Flash (Reasoning, Max Effort)	95%	DeepSeek V4 Flash deepseek-deepseek-v4-flash	Imported	2026-05-11
22	MiMo-V2-Flash (Reasoning)	95%	MiMo-V2-Flash xiaomi-mimo-v2-flash	Imported	2026-05-11
23	MiMo-V2-Pro	95%	MiMo-V2-Pro xiaomi-mimo-v2-pro	Imported	2026-05-11
24	DeepSeek V4 Flash (Non-reasoning)	94.4%	DeepSeek V4 Flash deepseek-deepseek-v4-flash	Imported	2026-05-11
25	Step 3.5 Flash	94.4%	S Step 3.5 Flash stepfun-step-3.5-flash	Imported	2026-05-11
26	DeepSeek V4 Pro (Reasoning, High Effort)	94.2%	DeepSeek V4 Pro deepseek-deepseek-v4-pro	Imported	2026-05-11
27	GLM-4.7 (Non-reasoning)	94.2%	GLM GLM 4.7 z-ai-glm-4.7	Imported	2026-05-11
28	MiMo-V2.5-Pro	94.2%	MiMo-V2.5-Pro xiaomi-mimo-v2.5-pro	Imported	2026-05-11
29	Mistral Medium 3.5	94.2%	Mistral: Mistral Medium 3.5 mistralai-mistral-medium-3-5	Imported	2026-05-11
30	Qwen3.6 27B (Reasoning)	94.2%	Qwen3.6 27B qwen-qwen3.6-27b	Imported	2026-05-11
31	GPT-5.5 (xhigh)	93.9%	GPT-5.5 openai-gpt-5.5	Imported	2026-05-11
32	Kimi K2.6 (Non-reasoning)	93.9%	KIMI MoonshotAI: Kimi K2.6 moonshotai-kimi-k2.6	Imported	2026-05-11
33	Qwen3.5 27B (Reasoning)	93.9%	Qwen3.5-27B qwen-qwen3.5-27b	Imported	2026-05-11
34	Qwen3.5 122B A10B (Reasoning)	93.6%	Qwen3.5-122B-A10B qwen-qwen3.5-122b-a10b	Imported	2026-05-11
35	Qwen3.6 27B (Non-reasoning)	93.6%	Qwen3.6 27B qwen-qwen3.6-27b	Imported	2026-05-11
36	Grok 4.1 Fast (Reasoning)	93.3%	GROK Grok 4.1 Fast x-ai-grok-4.1-fast	Imported	2026-05-11
37	MiMo-V2-Flash (Feb 2026)	93.3%	MiMo-V2-Flash xiaomi-mimo-v2-flash	Imported	2026-05-11
38	Tri-21B-think Preview	93.3%	—	Imported	2026-05-11
39	GPT-5.5 (high)	93%	GPT-5.5 openai-gpt-5.5	Imported	2026-05-11
40	Grok 4.20 0309 v2 (Reasoning)	93%	GROK Grok 4.20 x-ai-grok-4.20	Imported	2026-05-11
41	JT-MINI	93%	—	Imported	2026-05-11
42	Kimi K2 Thinking	93%	KIMI MoonshotAI: Kimi K2 Thinking moonshotai-kimi-k2-thinking	Imported	2026-05-11
43	Hy3-preview (Reasoning)	92.7%	T Hy3 preview tencent-hy3-preview	Imported	2026-05-11
44	Nova 2.0 Pro Preview (medium)	92.7%	—	Imported	2026-05-11
45	Claude Opus 4.6 (Adaptive Reasoning, Max Effort)	92.1%	Claude Opus 4.6 anthropic-claude-opus-4.6	Imported	2026-05-11
46	GPT-5.2 Codex (xhigh)	92.1%	GPT-5.2-Codex openai-gpt-5.2-codex	Imported	2026-05-11
47	Qwen3.5 4B (Reasoning)	92.1%	—	Imported	2026-05-11
48	GLM-4.7-Flash (Non-reasoning)	91.8%	GLM GLM 4.7 Flash z-ai-glm-4.7-flash	Imported	2026-05-11
49	GPT-5.5 (medium)	91.8%	GPT-5.5 openai-gpt-5.5	Imported	2026-05-11
50	Muse Spark	91.5%	—	Imported	2026-05-11
51	DeepSeek V4 Pro (Non-reasoning)	91.2%	DeepSeek V4 Pro deepseek-deepseek-v4-pro	Imported	2026-05-11
52	MiMo-V2-Omni	91.2%	MiMo-V2-Omni xiaomi-mimo-v2-omni	Imported	2026-05-11
53	DeepSeek V3.2 (Reasoning)	90.6%	DeepSeek V3.2 deepseek-deepseek-v3.2	Imported	2026-05-11
54	MiMo-V2.5	90.6%	MiMo-V2.5 xiaomi-mimo-v2.5	Imported	2026-05-11
55	Nova 2.0 Pro Preview (low)	90.6%	—	Imported	2026-05-11
56	Grok 3 mini Reasoning (high)	90.4%	—	Imported	2026-05-11
57	Trinity Large Thinking	90.1%	A Trinity Large Thinking arcee-ai-trinity-large-thinking	Imported	2026-05-11
58	Ling-2.6-1T	89.8%	I Ling-2.6-1T inclusionai-ling-2.6-1t	Imported	2026-05-11
59	Claude Opus 4.5 (Reasoning)	89.5%	Claude Opus 4.5 anthropic-claude-opus-4.5	Imported	2026-05-11
60	KAT Coder Pro V2	89.5%	K KAT-Coder-Pro V2 kwaipilot-kat-coder-pro-v2	Imported	2026-05-11
61	Qwen3.5 35B A3B (Reasoning)	89.2%	Qwen3.5-35B-A3B qwen-qwen3.5-35b-a3b	Imported	2026-05-11
62	Claude Opus 4.7 (Adaptive Reasoning, Max Effort)	88.6%	Claude Opus 4.7 anthropic-claude-opus-4.7	Imported	2026-05-11
63	KAT-Coder-Pro V1	88.6%	—	Imported	2026-05-11
64	Qwen3.5 Omni Plus	88.3%	—	Imported	2026-05-11
65	MiMo-V2-Omni-0327	88%	—	Imported	2026-05-11
66	MiniCPM-V 4.6 1.3B	87.7%	—	Imported	2026-05-11
67	Qwen3.5 4B (Non-reasoning)	87.7%	—	Imported	2026-05-11
68	HyperCLOVA X SEED Think (32B)	87.4%	—	Imported	2026-05-11
69	Step 3.5 Flash 2603	87.4%	S Step 3.5 Flash stepfun-step-3.5-flash	Imported	2026-05-11
70	Gemini 3 Pro Preview (high)	87.1%	Gemini 3 google-gemini-3	Imported	2026-05-11
71	GPT-5.4 (xhigh)	87.1%	GPT-5.4 openai-gpt-5.4	Imported	2026-05-11
72	Qwen3.5 27B (Non-reasoning)	87.1%	Qwen3.5-27B qwen-qwen3.5-27b	Imported	2026-05-11
73	GPT-5 Codex (high)	86.8%	GPT-5 Codex openai-gpt-5-codex	Imported	2026-05-11
74	MiniMax-M2	86.8%	MiniMax M2 minimax-minimax-m2	Imported	2026-05-11
75	Qwen3.5 9B (Reasoning)	86.8%	Qwen3.5-9B qwen-qwen3.5-9b	Imported	2026-05-11
76	GPT-5 (medium)	86.5%	GPT-5 openai-gpt-5	Imported	2026-05-11
77	Mi:dm K 2.5 Pro	86.5%	—	Imported	2026-05-11
78	Claude Opus 4.5 (Non-reasoning)	86.3%	Claude Opus 4.5 anthropic-claude-opus-4.5	Imported	2026-05-11
79	Qwen3.5 35B A3B (Non-reasoning)	86.3%	Qwen3.5-35B-A3B qwen-qwen3.5-35b-a3b	Imported	2026-05-11
80	Solar Pro 3	86.3%	U Solar Pro 3 upstage-solar-pro-3	Imported	2026-05-11
81	GPT-5.3 Codex (xhigh)	86%	GPT-5.3-Codex openai-gpt-5.3-codex	Imported	2026-05-11
82	Ling 2.6 Flash	86%	I Ling-2.6-flash inclusionai-ling-2.6-flash	Imported	2026-05-11
83	MiniMax-M2.1	85.4%	MiniMax M2.1 minimax-minimax-m2.1	Imported	2026-05-11
84	Qwen3.5 9B (Non-reasoning)	85.1%	Qwen3.5-9B qwen-qwen3.5-9b	Imported	2026-05-11
85	Qwen3.6 35B A3B (Non-reasoning)	85.1%	Qwen3.6 35B A3B qwen-qwen3.6-35b-a3b	Imported	2026-05-11
86	Claude Opus 4.6 (Non-reasoning, High Effort)	84.8%	Claude Opus 4.6 anthropic-claude-opus-4.6	Imported	2026-05-11
87	GPT-5 (high)	84.8%	GPT-5 openai-gpt-5	Imported	2026-05-11
88	GPT-5.2 (xhigh)	84.8%	GPT-5.2 openai-gpt-5.2	Imported	2026-05-11
89	MiniMax-M2.7	84.8%	MiniMax M2.7 minimax-minimax-m2.7	Imported	2026-05-11
90	Qwen3.5 122B A10B (Non-reasoning)	84.5%	Qwen3.5-122B-A10B qwen-qwen3.5-122b-a10b	Imported	2026-05-11
91	Qwen3.5 Omni Flash	84.5%	—	Imported	2026-05-11
92	GPT-5 (low)	84.2%	GPT-5 openai-gpt-5	Imported	2026-05-11
93	ERNIE 5.0 Thinking Preview	83.9%	—	Imported	2026-05-11
94	GPT-5.5 (low)	83.9%	GPT-5.5 openai-gpt-5.5	Imported	2026-05-11
95	MiMo-V2-Flash (Non-reasoning)	83.9%	MiMo-V2-Flash xiaomi-mimo-v2-flash	Imported	2026-05-11
96	Qwen3.5 397B A17B (Non-reasoning)	83.9%	Qwen3.5 397B A17B qwen-qwen3.5-397b-a17b	Imported	2026-05-11
97	Qwen3 Max Thinking	83.6%	Qwen3 Max Thinking qwen-qwen3-max-thinking	Imported	2026-05-11
98	Qwen3 Max Thinking (Preview)	83.6%	Qwen3 Max Thinking qwen-qwen3-max-thinking	Imported	2026-05-11
99	GPT-5.4 mini (xhigh)	83.3%	GPT-5.4 Mini openai-gpt-5.4-mini	Imported	2026-05-11
100	GPT-5.1 Codex (high)	83%	GPT-5.1-Codex openai-gpt-5.1-codex	Imported	2026-05-11
101	GPT-5.1 (high)	81.9%	GPT-5.1 openai-gpt-5.1	Imported	2026-05-11
102	Qwen3.5 2B (Non-reasoning)	81.6%	—	Imported	2026-05-11
103	Kimi K2.5 (Non-reasoning)	81.3%	KIMI MoonshotAI: Kimi K2.5 moonshotai-kimi-k2.5	Imported	2026-05-11
104	Tri-21B-Think	81%	—	Imported	2026-05-11
105	o3	80.7%	o3 openai-o3	Imported	2026-05-11
106	Gemini 3 Flash Preview (Reasoning)	80.4%	Gemini 3 Flash Preview google-gemini-3-flash-preview	Imported	2026-05-11
107	Nova 2.0 Omni (medium)	80.4%	—	Imported	2026-05-11
108	Claude Sonnet 4.6 (Non-reasoning, High Effort)	79.5%	Claude Sonnet 4.6 anthropic-claude-sonnet-4.6	Imported	2026-05-11
109	LongCat Flash Lite	79.5%	—	Imported	2026-05-11
110	Qwen3 Coder Next	79.5%	Qwen3 Coder Next qwen-qwen3-coder-next	Imported	2026-05-11
111	Claude Sonnet 4.6 (Non-reasoning, Low Effort)	78.9%	Claude Sonnet 4.6 anthropic-claude-sonnet-4.6	Imported	2026-05-11
112	DeepSeek V3.2 (Non-reasoning)	78.9%	DeepSeek V3.2 deepseek-deepseek-v3.2	Imported	2026-05-11
113	Claude 4.5 Sonnet (Reasoning)	78.1%	—	Imported	2026-05-11
114	EXAONE 4.5 33B	78.1%	—	Imported	2026-05-11
115	GLM-4.6 (Non-reasoning)	76.9%	GLM GLM 4.6 z-ai-glm-4.6	Imported	2026-05-11
116	GPT-5.4 nano (xhigh)	76%	GPT-5.4 Nano openai-gpt-5.4-nano	Imported	2026-05-11
117	Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort)	75.7%	Claude Sonnet 4.6 anthropic-claude-sonnet-4.6	Imported	2026-05-11
118	Grok Code Fast 1	75.7%	GROK Grok Code Fast 1 x-ai-grok-code-fast-1	Imported	2026-05-11
119	Nova 2.0 Lite (medium)	75.7%	—	Imported	2026-05-11
120	Grok 4	74.9%	GROK Grok 4 x-ai-grok-4	Imported	2026-05-11
121	GPT-5.4 (low)	74.6%	GPT-5.4 openai-gpt-5.4	Imported	2026-05-11
122	GPT-5.2 (medium)	74.3%	GPT-5.2 openai-gpt-5.2	Imported	2026-05-11
123	K-EXAONE (Reasoning)	74.3%	—	Imported	2026-05-11
124	Qwen3 Max	74.3%	Qwen3 Max qwen-qwen3-max	Imported	2026-05-11
125	Claude Opus 4.7 (Non-reasoning, High Effort)	74%	Claude Opus 4.7 anthropic-claude-opus-4.7	Imported	2026-05-11
126	Claude 4 Opus (Reasoning)	73.4%	—	Imported	2026-05-11
127	Kimi K2 0905	73.4%	KIMI MoonshotAI: Kimi K2 0905 moonshotai-kimi-k2-0905	Imported	2026-05-11
128	Nova 2.0 Lite (high)	72.8%	—	Imported	2026-05-11
129	MiMo-V2.5-Pro (Non-reasoning)	72.5%	MiMo-V2.5-Pro xiaomi-mimo-v2.5-pro	Imported	2026-05-11
130	Nova 2.0 Lite (low)	71.9%	—	Imported	2026-05-11
131	Nova 2.0 Pro Preview (Non-reasoning)	71.6%	—	Imported	2026-05-11
132	Claude 4.1 Opus (Reasoning)	71.4%	—	Imported	2026-05-11
133	GPT-5 mini (medium)	71.1%	GPT-5 Mini openai-gpt-5-mini	Imported	2026-05-11
134	Mercury 2	70.8%	I Mercury 2 inception-mercury-2	Imported	2026-05-11
135	Claude 4.5 Sonnet (Non-reasoning)	70.5%	—	Imported	2026-05-11
136	GLM-4.6 (Reasoning)	70.5%	GLM GLM 4.6 z-ai-glm-4.6	Imported	2026-05-11
137	Grok 4.20 0309 (Non-reasoning)	69.6%	GROK Grok 4.20 x-ai-grok-4.20	Imported	2026-05-11
138	Apriel-v1.6-15B-Thinker	69.3%	—	Imported	2026-05-11
139	GPT-5.5 (Non-reasoning)	69.3%	GPT-5.5 openai-gpt-5.5	Imported	2026-05-11
140	Qwen3.5 2B (Reasoning)	69%	—	Imported	2026-05-11
141	Apriel-v1.5-15B-Thinker	68.4%	—	Imported	2026-05-11
142	GPT-5 mini (high)	68.4%	GPT-5 Mini openai-gpt-5-mini	Imported	2026-05-11
143	Gemini 3 Pro Preview (low)	68.1%	Gemini 3 google-gemini-3	Imported	2026-05-11
144	Nova 2.0 Omni (low)	67.8%	—	Imported	2026-05-11
145	NVIDIA Nemotron 3 Super 120B A12B (Reasoning)	67.8%	Nemotron 3 Super nvidia-nemotron-3-super-120b-a12b	Imported	2026-05-11
146	Hy3-preview (Non-reasoning)	67.5%	T Hy3 preview tencent-hy3-preview	Imported	2026-05-11
147	GPT-5 (minimal)	67%	GPT-5 openai-gpt-5	Imported	2026-05-11
148	gpt-oss-120B (high)	65.8%	gpt-oss-120b openai-gpt-oss-120b	Imported	2026-05-11
149	Grok 4 Fast (Reasoning)	65.8%	GROK Grok 4 Fast x-ai-grok-4-fast	Imported	2026-05-11
150	Grok 4.3 (Non-reasoning)	65.8%	GROK Grok 4.3 x-ai-grok-4.3	Imported	2026-05-11
151	Gemma 4 31B (Non-reasoning)	65.5%	Gemma 4 31B google-gemma-4-31b-it	Imported	2026-05-11
152	Qwen3.5 0.8B (Non-reasoning)	65.2%	—	Imported	2026-05-11
153	Claude 4 Sonnet (Reasoning)	64.6%	—	Imported	2026-05-11
154	Grok 4 Fast (Non-reasoning)	63.7%	GROK Grok 4 Fast x-ai-grok-4-fast	Imported	2026-05-11
155	Grok 4.1 Fast (Non-reasoning)	63.7%	GROK Grok 4.1 Fast x-ai-grok-4.1-fast	Imported	2026-05-11
156	GPT-5.1 Codex mini (high)	62.9%	GPT-5.1-Codex-Mini openai-gpt-5.1-codex-mini	Imported	2026-05-11
157	o1	62.6%	o1 openai-o1	Imported	2026-05-11
158	Nova 2.0 Lite (Non-reasoning)	62%	—	Imported	2026-05-11
159	Kimi K2	61.1%	KIMI MoonshotAI: Kimi K2 0711 moonshotai-kimi-k2	Imported	2026-05-11
160	gpt-oss-20B (high)	60.2%	gpt-oss-20b openai-gpt-oss-20b	Imported	2026-05-11
161	Gemma 4 31B (Reasoning)	59.9%	Gemma 4 31B google-gemma-4-31b-it	Imported	2026-05-11
162	Grok 4.20 0309 v2 (Non-reasoning)	59.9%	GROK Grok 4.20 x-ai-grok-4.20	Imported	2026-05-11
163	K-EXAONE (Non-reasoning)	59.1%	—	Imported	2026-05-11
164	Doubao Seed Code	58.2%	—	Imported	2026-05-11
165	o4-mini (high)	55.6%	o4 Mini openai-o4-mini	Imported	2026-05-11
166	Claude 3.7 Sonnet (Reasoning)	54.7%	Claude 3.7 Sonnet (thinking) anthropic-claude-3.7-sonnet-thinking	Imported	2026-05-11
167	Claude 4.5 Haiku (Reasoning)	54.7%	—	Imported	2026-05-11
168	Gemini 2.5 Pro	54.1%	Gemini 2.5 Pro google-gemini-2.5-pro	Imported	2026-05-11
169	Qwen3 VL 235B A22B (Reasoning)	54.1%	—	Imported	2026-05-11
170	Nemotron Cascade 2 30B A3B	53.2%	—	Imported	2026-05-11
171	Qwen3 235B A22B 2507 (Reasoning)	53.2%	Qwen3 235B A22B Instruct 2507 qwen-qwen3-235b-a22b-2507	Imported	2026-05-11
172	GPT-4.1 mini	52.9%	GPT-4.1 Mini openai-gpt-4.1-mini	Imported	2026-05-11
173	GPT-5.4 nano (medium)	52.6%	GPT-5.4 Nano openai-gpt-5.4-nano	Imported	2026-05-11
174	Claude 4 Sonnet (Non-reasoning)	52.3%	—	Imported	2026-05-11
175	Magistral Medium 1.2	52%	—	Imported	2026-05-11
176	gpt-oss-20B (low)	50.3%	gpt-oss-20b openai-gpt-oss-20b	Imported	2026-05-11
177	Claude 3.7 Sonnet (Non-reasoning)	50%	Claude 3.7 Sonnet anthropic-claude-3.7-sonnet	Imported	2026-05-11
178	Mi:dm K 2.5 Pro Preview	49.4%	—	Imported	2026-05-11
179	Seed-OSS-36B-Instruct	49.4%	—	Imported	2026-05-11
180	Grok 3	48.8%	GROK Grok 3 xaigrok-3	Imported	2026-05-11
181	Solar Open 100B (Reasoning)	48.2%	—	Imported	2026-05-11
182	Qwen3.5 0.8B (Reasoning)	47.7%	—	Imported	2026-05-11
183	DeepSeek V3 0324	47.1%	DeepSeek V3 0324 deepseek-deepseek-chat-v3-0324	Imported	2026-05-11
184	GPT-4.1	47.1%	GPT-4.1 openai-gpt-4.1	Imported	2026-05-11
185	Sarvam 105B (high)	46.8%	—	Imported	2026-05-11
186	GLM-4.5-Air	46.5%	GLM GLM 4.5 Air z-ai-glm-4.5-air	Imported	2026-05-11
187	GPT-5.1 (Non-reasoning)	46.5%	GPT-5.1 openai-gpt-5.1	Imported	2026-05-11
188	GPT-5.2 (Non-reasoning)	46.5%	GPT-5.2 openai-gpt-5.2	Imported	2026-05-11
189	Motif-2-12.7B-Reasoning	46.5%	—	Imported	2026-05-11
190	Gemini 2.5 Flash Preview (Sep '25) (Reasoning)	45.6%	—	Imported	2026-05-11
191	Qwen3 VL 32B (Reasoning)	45.6%	—	Imported	2026-05-11
192	Nemotron 3 Nano Omni 30B A3B Reasoning	45.3%	—	Imported	2026-05-11
193	gpt-oss-120B (low)	45%	gpt-oss-120b openai-gpt-oss-120b	Imported	2026-05-11
194	Nova 2.0 Omni (Non-reasoning)	44.7%	—	Imported	2026-05-11
195	Gemma 4 26B A4B (Reasoning)	43.6%	Gemma 4 26B A4B google-gemma-4-26b-a4b-it	Imported	2026-05-11
196	Qwen3 Coder 480B A35B Instruct	43.6%	Qwen3 Coder 480B A35B qwen-qwen3-coder	Imported	2026-05-11
197	Gemini 3 Flash Preview (Non-reasoning)	43.3%	Gemini 3 Flash Preview google-gemini-3-flash-preview	Imported	2026-05-11
198	GLM-4.5 (Reasoning)	43%	GLM GLM 4.5 z-ai-glm-4.5	Imported	2026-05-11
199	Granite 4.1 30B	42.1%	—	Imported	2026-05-11
200	Qwen3 Next 80B A3B (Reasoning)	41.5%	—	Imported	2026-05-11
201	Mistral Small 4 (Reasoning)	41.2%	Mistral: Mistral Small 4 mistralai-mistral-small-2603	Imported	2026-05-11
202	NVIDIA Nemotron 3 Nano 30B A3B (Reasoning)	40.9%	Nemotron 3 Nano 30B A3B nvidia-nemotron-3-nano-30b-a3b	Imported	2026-05-11
203	Mistral Medium 3.1	40.6%	Mistral: Mistral Medium 3.1 mistralai-mistral-medium-3.1	Imported	2026-05-11
204	Gemma 4 26B A4B (Non-reasoning)	40.4%	Gemma 4 26B A4B google-gemma-4-26b-a4b-it	Imported	2026-05-11
205	Nova Premier	38.3%	—	Imported	2026-05-11
206	Devstral Small (May '25)	38%	Mistral: Devstral Small 1.1 mistralai-devstral-small	Imported	2026-05-11
207	DeepSeek V3.1 (Reasoning)	37.4%	DeepSeek V3.1 deepseek-deepseek-chat-v3.1	Imported	2026-05-11
208	DeepSeek V3.1 Terminus (Non-reasoning)	37.1%	DeepSeek V3.1 Terminus deepseek-deepseek-v3.1-terminus	Imported	2026-05-11
209	DeepSeek V3.1 Terminus (Reasoning)	37.1%	DeepSeek V3.1 Terminus deepseek-deepseek-v3.1-terminus	Imported	2026-05-11
210	DeepSeek R1 0528 (May '25)	36.5%	R1 deepseek-r1	Imported	2026-05-11
211	GPT-5 nano (high)	36.5%	GPT-5 Nano openai-gpt-5-nano	Imported	2026-05-11
212	GPT-5.4 mini (medium)	36.5%	GPT-5.4 Mini openai-gpt-5.4-mini	Imported	2026-05-11
213	Pixtral Large	36.5%	Mistral: Pixtral Large 2411 mistralai-pixtral-large-2411	Imported	2026-05-11
214	GPT-5.4 (Non-reasoning)	35.1%	GPT-5.4 openai-gpt-5.4	Imported	2026-05-11
215	Qwen3 VL 235B A22B Instruct	35.1%	Qwen3 VL 235B A22B Instruct qwen-qwen3-vl-235b-a22b-instruct	Imported	2026-05-11
216	DeepSeek V3.1 (Non-reasoning)	34.8%	DeepSeek V3.1 deepseek-deepseek-chat-v3.1	Imported	2026-05-11
217	GPT-5.4 nano (Non-Reasoning)	34.8%	GPT-5.4 Nano openai-gpt-5.4-nano	Imported	2026-05-11
218	Qwen2.5 Instruct 72B	34.5%	Qwen2.5 72B Instruct qwen-qwen-2.5-72b-instruct	Imported	2026-05-11
219	Qwen3 14B (Reasoning)	34.5%	Qwen3 14B qwen-qwen3-14b	Imported	2026-05-11
220	Qwen3 Coder 30B A3B Instruct	34.5%	Qwen3 Coder 30B A3B Instruct qwen-qwen3-coder-30b-a3b-instruct	Imported	2026-05-11
221	Sarvam 30B (high)	34.5%	—	Imported	2026-05-11
222	MiniMax M1 80k	34.2%	—	Imported	2026-05-11
223	DeepSeek V3.2 Exp (Non-reasoning)	33.9%	DeepSeek V3.2 deepseek-deepseek-v3.2	Imported	2026-05-11
224	DeepSeek V3.2 Exp (Reasoning)	33.9%	DeepSeek V3.2 Exp deepseek-deepseek-v3.2-exp	Imported	2026-05-11
225	Qwen3 235B A22B 2507 Instruct	33.3%	Qwen3 235B A22B Instruct 2507 qwen-qwen3-235b-a22b-2507	Imported	2026-05-11
226	Mistral Large 2 (Jul '24)	33%	Mistral Large 2407 mistralai-mistral-large-2407	Imported	2026-05-11
227	Ling-1T	32.7%	—	Imported	2026-05-11
228	Qwen3 Max (Preview)	32.7%	Qwen3 Max qwen-qwen3-max	Imported	2026-05-11
229	Claude 4.5 Haiku (Non-reasoning)	32.5%	—	Imported	2026-05-11
230	Qwen3 14B (Non-reasoning)	32.2%	Qwen3 14B qwen-qwen3-14b	Imported	2026-05-11
231	GPT-5 mini (minimal)	31.9%	GPT-5 Mini openai-gpt-5-mini	Imported	2026-05-11
232	Solar Pro 2 (Non-reasoning)	31.9%	—	Imported	2026-05-11
233	Gemini 2.5 Flash (Reasoning)	31.6%	Gemini 2.5 Flash google-gemini-2.5-flash	Imported	2026-05-11
234	GLM-4.6V (Reasoning)	31.6%	GLM GLM 4.6V z-ai-glm-4.6v	Imported	2026-05-11
235	MiniMax M1 40k	31.6%	—	Imported	2026-05-11
236	Gemini 3.1 Flash-Lite Preview	31.3%	Gemini 3.1 Flash Lite Preview google-gemini-3.1-flash-lite-preview	Imported	2026-05-11
237	o3-mini (high)	31.3%	o3 Mini High openai-o3-mini-high	Imported	2026-05-11
238	Gemini 2.5 Flash-Lite Preview (Sep '25) (Reasoning)	30.7%	—	Imported	2026-05-11
239	GLM-4.6V (Non-reasoning)	30.7%	GLM GLM 4.6V z-ai-glm-4.6v	Imported	2026-05-11
240	Mistral Large 2 (Nov '24)	30.7%	—	Imported	2026-05-11
241	Gemini 2.5 Flash-Lite Preview (Sep '25) (Non-reasoning)	30.4%	Gemini 2.5 Flash Lite Preview 09-2025 google-gemini-2.5-flash-lite-preview-09-2025	Imported	2026-05-11
242	GPT-5 nano (medium)	30.4%	GPT-5 Nano openai-gpt-5-nano	Imported	2026-05-11
243	Qwen3 32B (Reasoning)	29.8%	Qwen3 32B qwen-qwen3-32b	Imported	2026-05-11
244	Gemini 2.0 Flash (Feb '25)	29.5%	Gemini 2.0 Flash google-gemini-2.0-flash	Imported	2026-05-11
245	Mistral Small 3.2	29.5%	—	Imported	2026-05-11
246	Qwen3 VL 32B Instruct	29.2%	Qwen3 VL 32B Instruct qwen-qwen3-vl-32b-instruct	Imported	2026-05-11
247	Qwen3 VL 8B Instruct	29.2%	Qwen3 VL 8B Instruct qwen-qwen3-vl-8b-instruct	Imported	2026-05-11
248	GPT-4o (Aug '24)	28.9%	GPT-4o (2024-08-06) openai-gpt-4o-2024-08-06	Imported	2026-05-11
249	o3-mini	28.7%	o3-mini openai-o3-mini	Imported	2026-05-11
250	Devstral Small (Jul '25)	28.4%	Mistral: Devstral Small 1.1 mistralai-devstral-small	Imported	2026-05-11
251	Gemini 2.5 Flash Preview (Sep '25) (Non-reasoning)	28.4%	—	Imported	2026-05-11
252	Llama Nemotron Super 49B v1.5 (Reasoning)	28.1%	—	Imported	2026-05-11
253	NVIDIA Nemotron 3 Nano 4B	28.1%	—	Imported	2026-05-11
254	Qwen3 30B A3B 2507 (Reasoning)	28.1%	—	Imported	2026-05-11
255	Solar Pro 2 (Reasoning)	28.1%	—	Imported	2026-05-11
256	Falcon-H1R-7B	27.8%	—	Imported	2026-05-11
257	Granite 4.1 8B	27.8%	Granite 4.1 8B ibm-granite-granite-4.1-8b	Imported	2026-05-11
258	K2-V2 (high)	27.8%	—	Imported	2026-05-11
259	Magistral Small 1.2	27.8%	—	Imported	2026-05-11
260	Qwen3 8B (Reasoning)	27.8%	Qwen3 8B qwen-qwen3-8b	Imported	2026-05-11
261	Ministral 3 14B	27.2%	—	Imported	2026-05-11
262	Qwen3 235B A22B (Non-reasoning)	27.2%	Qwen3 235B A22B qwen-qwen3-235b-a22b	Imported	2026-05-11
263	Llama 3.3 Nemotron Super 49B v1 (Reasoning)	26.9%	—	Imported	2026-05-11
264	Hermes 4 - Llama-3.1 405B (Non-reasoning)	26.6%	—	Imported	2026-05-11
265	INTELLECT-3	26.6%	PI INTELLECT-3 prime-intellect-intellect-3	Imported	2026-05-11
266	Llama 3.3 Instruct 70B	26.6%	—	Imported	2026-05-11
267	Magistral Small 1	26.6%	—	Imported	2026-05-11
268	Ministral 3 8B	26.6%	—	Imported	2026-05-11
269	Qwen3 4B 2507 Instruct	26.6%	—	Imported	2026-05-11
270	Ring-1T	26.3%	—	Imported	2026-05-11
271	Gemma 4 E4B (Non-reasoning)	26%	—	Imported	2026-05-11
272	Qwen3 1.7B (Reasoning)	26%	—	Imported	2026-05-11
273	Qwen3 30B A3B (Reasoning)	26%	Qwen3 30B A3B qwen-qwen3-30b-a3b	Imported	2026-05-11
274	GPT-5 nano (minimal)	25.7%	GPT-5 Nano openai-gpt-5-nano	Imported	2026-05-11
275	K2 Think V2	25.4%	—	Imported	2026-05-11
276	NVIDIA Nemotron 3 Nano 30B A3B (Non-reasoning)	25.4%	Nemotron 3 Nano 30B A3B nvidia-nemotron-3-nano-30b-a3b	Imported	2026-05-11
277	Qwen3 4B 2507 (Reasoning)	25.4%	—	Imported	2026-05-11
278	GPT-4o (Nov '24)	25.1%	GPT-4o openai-gpt-4o	Imported	2026-05-11
279	Llama Nemotron Super 49B v1.5 (Non-reasoning)	25.1%	—	Imported	2026-05-11
280	Mistral Small 3.1	25.1%	—	Imported	2026-05-11
281	Devstral 2	24.9%	—	Imported	2026-05-11
282	K2-V2 (medium)	24.9%	—	Imported	2026-05-11
283	Ministral 3 3B	24.9%	—	Imported	2026-05-11
284	Qwen3 8B (Non-reasoning)	24.9%	Qwen3 8B qwen-qwen3-8b	Imported	2026-05-11
285	Claude 3.5 Haiku	24.6%	Claude 3.5 Haiku anthropic-claude-3.5-haiku	Imported	2026-05-11
286	Mistral Large 3	24.6%	—	Imported	2026-05-11
287	Mistral Medium 3	24.3%	Mistral: Mistral Medium 3 mistralai-mistral-medium-3	Imported	2026-05-11
288	Qwen3 235B A22B (Reasoning)	24%	Qwen3 235B A22B qwen-qwen3-235b-a22b	Imported	2026-05-11
289	Devstral Small 2	23.4%	—	Imported	2026-05-11
290	GPT-5.4 mini (Non-Reasoning)	23.4%	GPT-5.4 Mini openai-gpt-5.4-mini	Imported	2026-05-11
291	NVIDIA Nemotron Nano 9B V2 (Non-reasoning)	23.4%	Nemotron Nano 9B V2 nvidia-nemotron-nano-9b-v2	Imported	2026-05-11
292	Qwen3 VL 4B Instruct	23.4%	—	Imported	2026-05-11
293	Llama 3.1 Nemotron Instruct 70B	23.1%	—	Imported	2026-05-11
294	Magistral Medium 1	23.1%	—	Imported	2026-05-11
295	DeepSeek V3 (Dec '24)	22.8%	DeepSeek V3 deepseek-deepseek-chat	Imported	2026-05-11
296	Granite 4.0 1B	22.8%	—	Imported	2026-05-11
297	GLM-4.5V (Reasoning)	22.5%	GLM GLM 4.5V z-ai-glm-4.5v	Imported	2026-05-11
298	Hermes 4 - Llama-3.1 70B (Reasoning)	22.5%	—	Imported	2026-05-11
299	Qwen3 VL 8B (Reasoning)	22.5%	—	Imported	2026-05-11
300	Gemma 4 E2B (Non-reasoning)	22.2%	—	Imported	2026-05-11
301	Hermes 4 - Llama-3.1 405B (Reasoning)	22.2%	—	Imported	2026-05-11
302	Qwen3 30B A3B (Non-reasoning)	22.2%	Qwen3 30B A3B qwen-qwen3-30b-a3b	Imported	2026-05-11
303	DeepSeek R1 Distill Llama 70B	21.9%	R1 Distill Llama 70B deepseek-deepseek-r1-distill-llama-70b	Imported	2026-05-11
304	NVIDIA Nemotron Nano 9B V2 (Reasoning)	21.9%	Nemotron Nano 9B V2 nvidia-nemotron-nano-9b-v2	Imported	2026-05-11
305	Hermes 4 - Llama-3.1 70B (Non-reasoning)	21.6%	—	Imported	2026-05-11
306	Nanbeige4.1-3B	21.6%	—	Imported	2026-05-11
307	Qwen3 1.7B (Non-reasoning)	21.6%	—	Imported	2026-05-11
308	Qwen3 Next 80B A3B Instruct	21.6%	Qwen3 Next 80B A3B Instruct qwen-qwen3-next-80b-a3b-instruct	Imported	2026-05-11
309	NVIDIA Nemotron Nano 12B v2 VL (Reasoning)	21.3%	Nemotron Nano 12B 2 VL nvidia-nemotron-nano-12b-v2-vl	Imported	2026-05-11
310	Olmo 3.1 32B Instruct	21.3%	OLMO Olmo 3.1 32B Instruct allenai-olmo-3.1-32b-instruct	Imported	2026-05-11
311	Qwen3 Omni 30B A3B (Reasoning)	21.3%	—	Imported	2026-05-11
312	Claude 3 Haiku	21.1%	Claude 3 Haiku anthropic-claude-3-haiku	Imported	2026-05-11
313	Llama 3.2 Instruct 3B	21.1%	—	Imported	2026-05-11
314	Qwen3 0.6B (Reasoning)	21.1%	—	Imported	2026-05-11
315	Gemma 4 E2B (Reasoning)	20.8%	—	Imported	2026-05-11
316	Gemma 4 E4B (Reasoning)	20.8%	—	Imported	2026-05-11
317	K2-V2 (low)	20.8%	—	Imported	2026-05-11
318	Ling-flash-2.0	20.8%	—	Imported	2026-05-11
319	Exaone 4.0 1.2B (Non-reasoning)	20.5%	—	Imported	2026-05-11
320	Solar Mini	20.2%	—	Imported	2026-05-11
321	Devstral Medium	19.9%	Mistral: Devstral Medium mistralai-devstral-medium	Imported	2026-05-11
322	Qwen3 VL 30B A3B (Reasoning)	19.9%	—	Imported	2026-05-11
323	GLM-4.5V (Non-reasoning)	19.6%	GLM GLM 4.5V z-ai-glm-4.5v	Imported	2026-05-11
324	Granite 4.0 H 1B	19.6%	—	Imported	2026-05-11
325	Granite 4.1 3B	19.6%	—	Imported	2026-05-11
326	LFM2.5-1.2B-Thinking	19.6%	LFM LFM2.5-1.2B-Thinking liquid-lfm-2.5-1.2b-thinking	Imported	2026-05-11
327	Mistral Small 3	19.6%	—	Imported	2026-05-11
328	NVIDIA Nemotron Nano 12B v2 VL (Non-reasoning)	19.3%	Nemotron Nano 12B 2 VL nvidia-nemotron-nano-12b-v2-vl	Imported	2026-05-11
329	Gemini 2.5 Flash-Lite (Non-reasoning)	19%	Gemini 2.5 Flash Lite google-gemini-2.5-flash-lite	Imported	2026-05-11
330	Llama 3.1 Instruct 405B	19%	—	Imported	2026-05-11
331	Qwen3 4B (Reasoning)	19%	—	Imported	2026-05-11
332	Qwen3 VL 30B A3B Instruct	19%	Qwen3 VL 30B A3B Instruct qwen-qwen3-vl-30b-a3b-instruct	Imported	2026-05-11
333	Gemini 2.5 Flash-Lite (Reasoning)	18.4%	Gemini 2.5 Flash Lite google-gemini-2.5-flash-lite	Imported	2026-05-11
334	Mistral Small 4 (Non-reasoning)	18.4%	Mistral: Mistral Small 4 mistralai-mistral-small-2603	Imported	2026-05-11
335	Llama 4 Maverick	17.8%	Llama 4 Maverick meta-llama-4-maverick	Imported	2026-05-11
336	Nova Lite	17.5%	Nova Lite 1.0 amazon-nova-lite-v1	Imported	2026-05-11
337	EXAONE 4.0 32B (Reasoning)	17.3%	—	Imported	2026-05-11
338	GPT-4.1 nano	17.3%	GPT-4.1 Nano openai-gpt-4.1-nano	Imported	2026-05-11
339	Granite 4.0 H Small	17.3%	—	Imported	2026-05-11
340	Exaone 4.0 1.2B (Reasoning)	16.4%	—	Imported	2026-05-11
341	Llama 3.1 Instruct 8B	16.4%	—	Imported	2026-05-11
342	Qwen3 Omni 30B A3B Instruct	16.4%	—	Imported	2026-05-11
343	Step3 VL 10B	16.1%	—	Imported	2026-05-11
344	Jamba Reasoning 3B	15.8%	—	Imported	2026-05-11
345	Llama 4 Scout	15.5%	Llama 4 Scout meta-llama-llama-4-scout	Imported	2026-05-11
346	Qwen3 VL 4B (Reasoning)	15.5%	—	Imported	2026-05-11
347	Command A	15.2%	C Command A cohere-command-a	Imported	2026-05-11
348	Llama 3.1 Instruct 70B	15.2%	—	Imported	2026-05-11
349	Gemini 2.5 Flash (Non-reasoning)	14.9%	Gemini 2.5 Flash google-gemini-2.5-flash	Imported	2026-05-11
350	Granite 4.0 H 350M	14.6%	—	Imported	2026-05-11
351	Llama 3.2 Instruct 11B (Vision)	14.6%	—	Imported	2026-05-11
352	Qwen3 0.6B (Non-reasoning)	14.6%	—	Imported	2026-05-11
353	Nova Micro	14%	Nova Micro 1.0 amazon-nova-micro-v1	Imported	2026-05-11
354	Nova Pro	14%	Nova Pro 1.0 amazon-nova-pro-v1	Imported	2026-05-11
355	Jamba 1.7 Large	13.5%	—	Imported	2026-05-11
356	LFM2 2.6B	13.5%	—	Imported	2026-05-11
357	Granite 4.0 350M	13.2%	—	Imported	2026-05-11
358	Ling-mini-2.0	13.2%	—	Imported	2026-05-11
359	Apertus 70B Instruct	12.9%	—	Imported	2026-05-11
360	Granite 4.0 Micro	12.6%	Granite 4.0 Micro ibm-granite-granite-4.0-h-micro	Imported	2026-05-11
361	Jamba 1.7 Mini	12.6%	—	Imported	2026-05-11
362	LFM2 1.2B	12.6%	—	Imported	2026-05-11
363	Olmo 3 7B Instruct	12.6%	—	Imported	2026-05-11
364	Llama 3.1 Nemotron Nano 4B v1.1 (Reasoning)	11.7%	—	Imported	2026-05-11
365	Apertus 8B Instruct	11.4%	—	Imported	2026-05-11
366	DeepSeek R1 (Jan '25)	11.4%	R1 deepseek-r1	Imported	2026-05-11
367	Llama 3.1 Nemotron Ultra 253B v1 (Reasoning)	11.4%	—	Imported	2026-05-11
368	LFM2 24B A2B	11.1%	LFM LFM2-24B-A2B liquid-lfm-2-24b-a2b	Imported	2026-05-11
369	Gemma 3 12B Instruct	10.8%	Gemma 3 12B google-gemma-3-12b-it	Imported	2026-05-11
370	LFM2.5-1.2B-Instruct	10.8%	LFM LFM2.5-1.2B-Instruct liquid-lfm-2.5-1.2b-instruct	Imported	2026-05-11
371	Gemma 3 1B Instruct	10.5%	—	Imported	2026-05-11
372	Gemma 3 27B Instruct	10.5%	Gemma 3 27B google-gemma-3-27b-it	Imported	2026-05-11
373	Granite 3.3 8B (Non-reasoning)	10.5%	—	Imported	2026-05-11
374	LFM2 8B A1B	10.5%	—	Imported	2026-05-11
375	Qwen3 30B A3B 2507 Instruct	10.2%	—	Imported	2026-05-11
376	Gemma 3 270M	9.1%	—	Imported	2026-05-11
377	LFM2.5-VL-1.6B	8.5%	—	Imported	2026-05-11
378	Phi-4 Mini Instruct	8.2%	—	Imported	2026-05-11
379	Gemma 3 4B Instruct	5%	Gemma 3 4B google-gemma-3-4b-it	Imported	2026-05-11
380	Gemma 3n E4B Instruct	5%	—	Imported	2026-05-11
381	EXAONE 4.0 32B (Non-reasoning)	4.1%	—	Imported	2026-05-11
382	DeepSeek R1 0528 Qwen3 8B	0%	—	Imported	2026-05-11
383	DeepSeek V3.2 Speciale	0%	DeepSeek V3.2 Speciale deepseek-deepseek-v3.2-speciale	Imported	2026-05-11
384	ERNIE 4.5 300B A47B	0%	ERNIE 4.5 300B A47B baidu-ernie-4.5-300b-a47b	Imported	2026-05-11
385	Gemma 3n E2B Instruct	0%	—	Imported	2026-05-11
386	GPT-5 (ChatGPT)	0%	GPT-5 openai-gpt-5	Imported	2026-05-11
387	Kimi Linear 48B A3B Instruct	0%	—	Imported	2026-05-11
388	Llama 3 Instruct 70B	0%	—	Imported	2026-05-11
389	Llama 3 Instruct 8B	0%	—	Imported	2026-05-11
390	Llama 3.2 Instruct 1B	0%	—	Imported	2026-05-11
391	Mistral 7B Instruct	0%	—	Imported	2026-05-11
392	Molmo 7B-D	0%	—	Imported	2026-05-11
393	Molmo2-8B	0%	—	Imported	2026-05-11
394	OLMo 2 32B	0%	—	Imported	2026-05-11
395	OLMo 2 7B	0%	—	Imported	2026-05-11
396	Olmo 3 32B Think	0%	OLMO Olmo 3 32B Think allenai-olmo-3-32b-think	Imported	2026-05-11
397	Olmo 3 7B Think	0%	—	Imported	2026-05-11
398	Olmo 3.1 32B Think	0%	—	Imported	2026-05-11
399	Phi-3 Mini Instruct 3.8B	0%	—	Imported	2026-05-11
400	Phi-4	0%	Phi 4 microsoft-phi-4	Imported	2026-05-11
401	Reka Flash 3	0%	REKA Reka Flash 3 rekaai-reka-flash-3	Imported	2026-05-11
402	Ring-flash-2.0	0%	—	Imported	2026-05-11
403	Sarvam M (Reasoning)	0%	—	Imported	2026-05-11
404	Tiny Aya Global	0%	—	Imported	2026-05-11
1	GPT-5.5	98%	GPT-5.5 openai-gpt-5.5	Launch post	2026-04-23
2	GPT-5.4	92.8%	GPT-5.4 openai-gpt-5.4	Launch post	2026-04-23

Metadata

Metrics

Latest Results