Cybench | BenchmarkList

Metadata

Accuracy, Total Subtasks, Correct Subtasks, Total Tokens (lower is better), Total Time (lower is better)

Rank	Subject	Accuracy	Model Match	Provenance	Sampled
1	openai/gpt-4-turbo-2024-04-09	36%	—	Imported	2026-05-27