Llama 3.2 3B Instruct | BenchmarkList

Metadata

Llama Open source

Aliases: llama-3.2-3b-instruct, llama-3.2-3b-instruct:free, meta-llama-llama-3.2-3b-instruct, meta-llama/llama-3.2-3b-instruct, meta-llama/llama-3.2-3b-instruct:free

Benchmark	Category	Rank	Score	Sampled
Berkeley Function-Calling Leaderboard	Agentic	98	21.95%	2026-05-27
UAVBench	Agentic	26	62	2026-05-06
OpenUGI	Alignment	1203	7.16	2026-05-06
Stick To Your Role!	Alignment	22	0.49	2026-05-06
BTZSC	Classification	31	43.02	2026-05-06
BigCodeBench	Coding	116	23.40	2026-05-06
MathTutorBench	Education	5	0.4689	2026-05-27
Open LLM Leaderboard v2	General Knowledge	1768	24.20	2026-05-06
HealthBench Hard	Healthcare	40	0.26	2026-05-27
MuSR	Intelligence	4368	1.37	2026-05-06
AraGen v3	Language	58	14.99	2026-05-06
La Leaderboard	Language	21	23.15	2026-05-06
Open Arabic LLM Leaderboard	Language	133	41.06	2026-05-06
Open Japanese LLM Leaderboard	Language	560	41.11	2026-05-06
Open Japanese LLM Leaderboard	Language	778	20.42	2026-05-06
Open Portuguese LLM Leaderboard	Language	566	75.05	2026-05-06
MATH Level 5	Math	1515	17.67	2026-05-06
BRIDGE Medical Leaderboard	Medical	177	34.81	2026-05-27
BRIDGE Medical Leaderboard	Medical	274	22.9	2026-05-27
BRIDGE Medical Leaderboard	Medical	281	21.6	2026-05-27
MEDIC Benchmark	Medical	82	51.44 average normalized public table score	2026-05-27
LatamBoard	Multilingual	32	54.73	2026-05-06
JSONSchemaBench	Structured Output	10	88.3% schema compliance	2026-05-28
JSONSchemaBench	Structured Output	28	65.3% schema compliance	2026-05-28
JSONSchemaBench	Structured Output	40	32% schema compliance	2026-05-28
BFCL v2	Tool Use	4	0.67	2026-05-06
K-MetBench	Weather	55	33.8% accuracy	2026-05-28

Metadata

Benchmark Results