NanoGPT-Bench | BenchmarkList

Metadata

Human Progress Recovered

Rank	Subject	Human Progress Recovered	Model Match	Provenance	Sampled
1	Autoresearch (Opus 4.6 Max)	9.3%	—	Imported	2026-05-20
2	Codex (GPT-5.4 xhigh)	8.6%	—	Imported	2026-05-20
3	Claude Code (Opus 4.6 Max)	8.2%	—	Imported	2026-05-20