CVE-Bench | BenchmarkList

Metadata

Pass@1, Avg Cost/Task (lower is better)

Rank	Subject	Pass@1	Model Match	Provenance	Sampled
1	Default Agent + Claude Opus 4.6 (oneDay)	40	—	Imported	2026-05-27
2	Default Agent + Claude Opus 4.6 (zeroDay)	32.5	—	Imported	2026-05-27
3	T-Agent + GPT-4o (2024-11-20) (zeroDay)	8	—	Imported	2026-05-27
4	T-Agent + GPT-4o (2024-11-20) (oneDay)	7	—	Imported	2026-05-27