Code Arena🏆Overall

View overall rankings across AI models on agentic coding tasks involving multi-step reasoning and tool use.

Apr 1, 2026

224,709 votes

59 models

	Rank Spread
6	515	gpt-5.4-high (codex-harness) OpenAI · Proprietary	1457+17/-17	1,495	N/A	N/A
16	719	gpt-5.4-medium (codex-harness) OpenAI · Proprietary	1427+16/-16	1,579	N/A	N/A
18	1528	gpt-5.3-codex (codex-harness) OpenAI · Proprietary	1407+12/-12	2,974	$1.75 / $14	400K
19	1530	gpt-5.2 OpenAI · Proprietary	1403+17/-17	1,460	$1.75 / $14	400K
21	1730	gpt-5-medium OpenAI · Proprietary	1392+13/-13	3,753	$1.25 / $10	400K
24	1730	gpt-5.1-medium OpenAI · Proprietary	1390+9/-9	6,124	$1.25 / $10	400K
29	1732	gpt-5.4-mini-high OpenAI · Proprietary	1385+18/-18	1,198	$0.75 / $4.50	400K
35	3340	gpt-5.1 OpenAI · Proprietary	1339+7/-7	12,868	$1.25 / $10	400K
37	3440	gpt-5.2-codex OpenAI · Proprietary	1335+8/-8	7,956	$1.75 / $14	400K
39	3440	gpt-5.1-codex OpenAI · Proprietary	1328+9/-9	6,225	$1.25 / $10	400K
49	4653	gpt-5.1-codex-mini OpenAI · Proprietary	1238+17/-17	1,443	$0.25 / $2	400K

Remove Style Control Leaderboard Plots

Confidence Intervals on Model Strength (via Bootstrapping)

Battle Count for Each Combination of Models (without Ties)

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)

Fraction of Model A Wins for All Non-tied A vs. B Battles