ConvFinQA | BenchmarkList

Metadata

Execution accuracy, Program accuracy

Rank	Subject	Execution accuracy	Model Match	Provenance	Sampled
1	Human Expert Performance	89.44	—	Imported	2026-05-27
2	FinQANet-Gold (RoBERTa-large)	77.32	—	Imported	2026-05-27
3	FinQANet (RoBERTa-large)	68.9	—	Imported	2026-05-27
4	FinQANet (RoBERTa-base)	64.95	—	Imported	2026-05-27
5	FinQANet (BERT-large)	61.14	—	Imported	2026-05-27
6	T-5(large)	58.66	—	Imported	2026-05-27
7	GPT-2(medium)	58.19	—	Imported	2026-05-27
8	FinQANet (BERT-base)	55.03	—	Imported	2026-05-27
9	General Crowd Performance	46.9	—	Imported	2026-05-27