FlenQA | BenchmarkList

Metadata

Score, Normalized Score

Rank	Subject	Score	Model Match	Provenance	Sampled
1	Phi 4 Reasoning Plus	0.98	—	Self-reported	2026-05-06
2	Phi 4 Reasoning	0.98	—	Self-reported	2026-05-06