PaperBench | BenchmarkList

Metadata

Replication Score

Rank	Subject	Replication Score	Model Match	Provenance	Sampled
1	Claude 3.5 Sonnet (New) + open-source scaffolding	21.0%	Claude 3.5 Sonnet anthropic-claude-3.5-sonnet	Imported	2025-04-02