HTML Code AI Leaderboard - Best AI Models for HTML Generation

	Rank Spread
1	14	claude-fable-5 Anthropic · Proprietary	1670+40/-40	319	$10 / $50	1M
2	15	kimi-k3 Moonshot · Proprietary	1630+51/-51	168	$3 / $15	1M
3	15	gpt-5.6-sol-xhigh (codex-harness) OpenAI · Proprietary	1614+36/-36	362	$5 / $30	1.1M
4	111	grok-4.5 SpaceXAI · Proprietary	1598+41/-41	244	$2 / $6	500K
5	419	claude-opus-4-7 Anthropic · Proprietary	1554+18/-18	1,201	$5 / $25	1M
6	223	gemini-3.6-flash Google · Proprietary	1552+36/-36	280	$1.50 / $7.50	N/A
7	421	claude-opus-4-8-thinking Anthropic · Proprietary	1549+23/-23	738	$5 / $25	1M
8	421	claude-opus-4-7-thinking Anthropic · Proprietary	1548+18/-18	1,324	$5 / $25	1M
9	421	claude-opus-4-6-thinking Anthropic · Proprietary	1546+15/-15	1,795	$5 / $25	1M
10	521	claude-opus-4-6 Anthropic · Proprietary	1540+14/-14	1,916	$5 / $25	1M
11	428	claude-sonnet-5-high Anthropic · Proprietary	1534+33/-33	361	$2 / $10	1M
12	426	glm-5.2 (max) Z.ai · MIT	1534+26/-26	572	$1.40 / $4.40	1M
13	526	gpt-5.5-xhigh (codex-harness) OpenAI · Proprietary	1527+19/-19	1,148	$5 / $30	N/A
14	528	claude-opus-4-8 Anthropic · Proprietary	1524+21/-21	840	$5 / $25	1M
15	528	glm-5.1 Z.ai · MIT	1523+22/-22	813	$1.40 / $4.40	202.8K
16	528	gpt-5.5-high (codex-harness) OpenAI · Proprietary	1522+18/-18	1,199	N/A	N/A
17	528	qwen3.7-max-20260517 Alibaba · Proprietary	1521+22/-22	763	$1.48 / $4.42	1M
18	628	claude-sonnet-4-6 Anthropic · Proprietary	1518+13/-13	2,200	$3 / $15	1M
19	633	gemini-3.5-flash-medium Google · Proprietary	1509+25/-25	616	$1.50 / $9	1M
20	535	seed-2.1-pro-preview Bytedance · Proprietary	1507+30/-30	423	N/A	N/A
21	1130	claude-opus-4-5-20251101-thinking-32k Anthropic · Proprietary	1503+11/-11	7,946	$5 / $25	200K
22	540	muse-spark-1.1 Meta · Proprietary	1496+41/-41	244	$1.25 / $4.25	N/A
23	1137	kimi-k2.6 Moonshot · Modified MIT	1491+19/-19	1,013	$0.95 / $4	262.1K
24	1137	gpt-5.5 (codex-harness) OpenAI · Proprietary	1490+18/-18	1,199	N/A	N/A
25	1042	gemini-3.5-flash Google · Proprietary	1486+34/-34	328	$1.50 / $9	1M
26	1937	gemini-3.1-pro-preview Google · Proprietary	1483+14/-14	1,985	$2 / $12	1M
27	1939	mimo-v2.5-pro Xiaomi · MIT	1477+18/-18	1,105	$0.43 / $0.87	1M
28	2037	claude-opus-4-5-20251101 Anthropic · Proprietary	1474+10/-10	8,381	$5 / $25	200K
29	1050	gpt-5.4-medium (codex-harness) OpenAI · Proprietary	1473+48/-48	165	$2.50 / $15	1.1M
30	1345	qwen3.6-max-preview Alibaba · Proprietary	1472+34/-34	310	$1.04 / $6.24	262.1K
31	2241	gemini-3-pro Google · Proprietary	1462+10/-10	13,752	$2 / $12	1M
32	2144	deepseek-v4-pro-thinking DeepSeek · MIT	1462+18/-18	1,090	$0.43 / $0.87	1M
33	2144	qwen3.6-plus Alibaba · Proprietary	1462+16/-16	1,365	$0.33 / $1.95	1M
34	2048	kimi-k2.7-code Moonshot · Modified MIT	1460+25/-25	581	$0.82 / $3.75	262.1K
35	1357	gpt-5.4-high (codex-harness) OpenAI · Proprietary	1456+49/-49	160	$2.50 / $15	1.1M
36	2248	minimax-m3 MiniMax · MiniMax Community License	1454+22/-22	789	$0.60 / $2.40	N/A
37	2645	glm-4.7 Z.ai · MIT	1449+12/-12	4,756	$0.40 / $1.75	202.8K
38	2650	glm-5 Z.ai · MIT	1443+20/-20	903	$1 / $3.20	202.8K
39	3049	gemini-3-flash Google · Proprietary	1440+10/-10	9,257	$0.50 / $3	1M
40	2753	mimo-v2-pro Xiaomi · Proprietary	1437+21/-21	799	$1 / $3	1M
41	2067	gpt-5.4 OpenAI · Proprietary	1432+56/-56	108	$2.50 / $15	1.1M
42	3056	deepseek-v4-pro DeepSeek · MIT	1428+19/-19	1,077	$0.43 / $0.87	1M
43	2864	gpt-5.3-codex (codex-harness) OpenAI · Proprietary	1424+30/-30	396	$1.75 / $14	400K
44	3456	kimi-k2.5-thinking Moonshot · Modified MIT	1423+13/-13	2,166	$0.60 / $3	N/A
45	2964	gpt-5.3-codex (codex-harness) OpenAI · Proprietary	1419+32/-32	360	$1.75 / $14	400K
46	3462	gpt-5.4-mini-high OpenAI · Proprietary	1418+17/-17	1,278	$0.75 / $4.50	400K
47	3663	gpt-5.2 OpenAI · Proprietary	1414+18/-18	1,455	$1.75 / $14	400K
48	3264	kimi-k2.5-instant Moonshot · Modified MIT	1414+25/-25	591	$0.57 / $2.85	262.1K
49	3764	mimo-v2.5 Xiaomi · MIT	1407+19/-19	1,073	$0.14 / $0.28	1M
50	4064	minimax-m2.1-preview MiniMax · MIT	1404+11/-11	6,770	$0.30 / $1.20	204.8K
51	3964	qwen3.5-397b-a17b Alibaba · Apache 2.0	1403+14/-14	1,878	$0.39 / $2.34	262.1K
52	3966	minimax-m2.5 MiniMax · Modified MIT	1402+19/-19	1,034	$0.15 / $0.90	204.8K
53	4064	gpt-5-medium OpenAI · Proprietary	1402+14/-14	3,756	$1.25 / $10	400K
54	4264	gpt-5.1-medium OpenAI · Proprietary	1398+11/-11	6,096	$1.25 / $10	400K
55	4364	gemini-3-flash (thinking-minimal) Google · Proprietary	1397+9/-9	7,091	$0.50 / $3	1M
56	4364	claude-sonnet-4-5-20250929-thinking-32k Anthropic · Proprietary	1396+9/-9	11,308	$3 / $15	200K
57	4067	minimax-m2.7 MiniMax · Modified MIT	1394+17/-17	1,316	$0.25 / $1	204.8K
58	4366	claude-opus-4-1-20250805 Anthropic · Proprietary	1393+10/-10	8,550	$15 / $75	200K
59	3974	inkling Thinky · Apache 2.0	1387+33/-33	322	$1 / $4.05	1M
60	4567	claude-sonnet-4-5-20250929 Anthropic · Proprietary	1386+9/-9	12,956	$3 / $15	200K
61	4373	qwen3.5-27b Alibaba · Apache 2.0	1383+20/-20	926	$0.26 / $2.60	262.1K
62	3481	glm-5v-turbo Z.ai · Proprietary	1380+55/-55	136	$1.20 / $4	202.8K
63	5574	deepseek-v3.2-thinking DeepSeek · MIT	1372+12/-12	4,002	$0.27 / $0.40	163.8K
64	5777	grok-4.20-beta-0309-reasoning SpaceXAI · Proprietary	1365+16/-16	1,480	$2 / $6	2M
65	5580	gemma-4-31b Google · Apache 2.0	1364+22/-22	761	$0.14 / $0.40	262.1K
66	6076	glm-4.6 Z.ai · MIT	1363+10/-10	8,316	$0.50 / $2	202.8K
67	6077	mimo-v2-flash (non-thinking) Xiaomi · MIT	1361+12/-12	4,113	$0.10 / $0.30	262.1K
68	6077	gpt-5.1 OpenAI · Proprietary	1360+10/-10	9,997	$1.25 / $10	400K
69	4385	hunyuan-hy3-preview Tencent · tencent-hunyuan-community	1357+44/-44	186	N/A	N/A
70	4485	gemma-4-26b-a4b Google · Apache 2.0	1354+44/-44	204	N/A	N/A
71	6080	grok-4.3 SpaceXAI · Proprietary	1354+20/-20	1,034	$1.25 / $2.50	1M
72	6080	mimo-v2-flash (thinking) Xiaomi · MIT	1349+19/-19	1,186	$0.10 / $0.30	262.1K
73	6080	qwen3.5-122b-a10b Alibaba · Apache 2.0	1348+19/-19	986	$0.26 / $2.08	262.1K
74	6380	gpt-5.2-codex OpenAI · Proprietary	1340+13/-13	3,136	$1.75 / $14	400K
75	6781	gpt-5.1-codex OpenAI · Proprietary	1337+11/-11	6,199	$1.25 / $10	400K
76	6780	kimi-k2-thinking-turbo Moonshot · Modified MIT	1336+10/-10	9,968	$1.15 / $8	262.1K
77	6186	laguna-m.1 Poolside · Apache 2.0	1333+28/-28	498	$0.20 / $0.40	262.1K
78	6389	qwen3.5-35b-a3b Alibaba · Apache 2.0	1316+37/-37	251	$0.14 / $1	262.1K
79	7586	claude-haiku-4-5-20251001 Anthropic · Proprietary	1316+9/-9	12,240	$1 / $5	200K
80	7586	minimax-m2 MiniMax · Apache 2.0	1312+10/-10	8,366	$0.30 / $1.20	204.8K
81	7587	deepseek-v3.2 DeepSeek · MIT	1307+11/-11	5,257	$0.27 / $0.40	163.8K
82	6492	qwen3.5-flash Alibaba · Proprietary	1307+44/-44	194	N/A	N/A
83	6792	mistral-medium-3.5 Mistral · Modified MIT	1302+43/-43	233	$1.50 / $7.50	262.1K
84	7391	laguna-xs.2 Poolside · Apache 2.0	1297+30/-30	472	$0.10 / $0.20	262.1K
85	7788	deepseek-v3.2-exp DeepSeek · MIT	1295+12/-12	4,869	$0.27 / $0.41	163.8K
86	8089	qwen3-coder-480b-a35b-instruct Alibaba · Apache 2.0	1291+9/-9	10,764	$0.40 / $1.60	262.1K
87	8192	gemini-3.1-flash-lite-preview Google · Proprietary	1274+17/-17	1,615	$0.25 / $1.50	1M
88	7597	trinity-large-thinking Apache 2.0	1271+46/-46	196	$0.25 / $0.80	262.1K
89	8293	KAT-Coder-Pro-V1 Proprietary	1267+16/-16	1,879	$0.21 / $0.83	256K
90	8596	gpt-5.1-codex-mini OpenAI · Proprietary	1248+18/-18	1,445	$0.25 / $2	400K
91	8896	grok-4-1-fast-reasoning SpaceXAI · Proprietary	1244+12/-12	5,450	$0.20 / $0.50	2M
92	8997	mistral-large-3 Mistral · Apache 2.0	1230+21/-21	1,034	$0.50 / $1.50	N/A
93	8498	granite-4.1-8b IBM · Apache 2.0	1226+49/-49	219	$0.05 / $0.10	131.1K
94	8997	grok-4.1-thinking SpaceXAI · Proprietary	1217+20/-20	1,209	N/A	N/A
95	8997	devstral-2 Mistral · Modified MIT	1216+19/-19	1,349	N/A	N/A
96	9197	gemini-2.5-pro Google · Proprietary	1211+14/-14	3,299	$1.25 / $10	1M
97	8499	mercury-2 Inception AI · Proprietary	1207+70/-70	100	$0.25 / $0.75	128K
98	9699	grok-4-fast-reasoning SpaceXAI · Proprietary	1158+24/-24	935	$0.20 / $0.50	2M
99	9799	grok-code-fast-1 SpaceXAI · Proprietary	1146+23/-23	981	$0.20 / $1.50	N/A
100	100100	devstral-medium-2507 Mistral · Proprietary	1098+23/-23	993	$0.40 / $2	128K

Rank Spread

claude-fable-5

Anthropic · Proprietary

1670+40/-40

319

$10 / $50

kimi-k3

Moonshot · Proprietary

1630+51/-51

168

$3 / $15

gpt-5.6-sol-xhigh (codex-harness)

OpenAI · Proprietary

1614+36/-36

362

$5 / $30

1.1M

111

grok-4.5

SpaceXAI · Proprietary

1598+41/-41

244

$2 / $6

500K

419

claude-opus-4-7

Anthropic · Proprietary

1554+18/-18

1,201

$5 / $25

223

gemini-3.6-flash

Google · Proprietary

1552+36/-36

280

$1.50 / $7.50

N/A

421

claude-opus-4-8-thinking

Anthropic · Proprietary

1549+23/-23

738

$5 / $25

421

claude-opus-4-7-thinking

Anthropic · Proprietary

1548+18/-18

1,324

$5 / $25

421

claude-opus-4-6-thinking

Anthropic · Proprietary

1546+15/-15

1,795

$5 / $25

521

claude-opus-4-6

Anthropic · Proprietary

1540+14/-14

1,916

$5 / $25

428

claude-sonnet-5-high

Anthropic · Proprietary

1534+33/-33

361

$2 / $10

426

glm-5.2 (max)

Z.ai · MIT

1534+26/-26

572

$1.40 / $4.40

526

gpt-5.5-xhigh (codex-harness)

OpenAI · Proprietary

1527+19/-19

1,148

$5 / $30

N/A

528

claude-opus-4-8

Anthropic · Proprietary

1524+21/-21

840

$5 / $25

528

glm-5.1

Z.ai · MIT

1523+22/-22

813

$1.40 / $4.40

202.8K

528

gpt-5.5-high (codex-harness)

OpenAI · Proprietary

1522+18/-18

1,199

N/A

528

qwen3.7-max-20260517

Alibaba · Proprietary

1521+22/-22

763

$1.48 / $4.42

628

claude-sonnet-4-6

Anthropic · Proprietary

1518+13/-13

2,200

$3 / $15

633

gemini-3.5-flash-medium

Google · Proprietary

1509+25/-25

616

$1.50 / $9

535

seed-2.1-pro-preview

Bytedance · Proprietary

1507+30/-30

423

N/A

1130

claude-opus-4-5-20251101-thinking-32k

Anthropic · Proprietary

1503+11/-11

7,946

$5 / $25

200K

540

muse-spark-1.1

Meta · Proprietary

1496+41/-41

244

$1.25 / $4.25

N/A

1137

kimi-k2.6

Moonshot · Modified MIT

1491+19/-19

1,013

$0.95 / $4

262.1K

1137

gpt-5.5 (codex-harness)

OpenAI · Proprietary

1490+18/-18

1,199

N/A

1042

gemini-3.5-flash

Google · Proprietary

1486+34/-34

328

$1.50 / $9

1937

gemini-3.1-pro-preview

Google · Proprietary

1483+14/-14

1,985

$2 / $12

1939

mimo-v2.5-pro

Xiaomi · MIT

1477+18/-18

1,105

$0.43 / $0.87

2037

claude-opus-4-5-20251101

Anthropic · Proprietary

1474+10/-10

8,381

$5 / $25

200K

1050

gpt-5.4-medium (codex-harness)

OpenAI · Proprietary

1473+48/-48

165

$2.50 / $15

1.1M

1345

qwen3.6-max-preview

Alibaba · Proprietary

1472+34/-34

310

$1.04 / $6.24

262.1K

2241

gemini-3-pro

Google · Proprietary

1462+10/-10

13,752

$2 / $12

2144

deepseek-v4-pro-thinking

DeepSeek · MIT

1462+18/-18

1,090

$0.43 / $0.87

2144

qwen3.6-plus

Alibaba · Proprietary

1462+16/-16

1,365

$0.33 / $1.95

2048

kimi-k2.7-code

Moonshot · Modified MIT

1460+25/-25

581

$0.82 / $3.75

262.1K

1357

gpt-5.4-high (codex-harness)

OpenAI · Proprietary

1456+49/-49

160

$2.50 / $15

1.1M

2248

minimax-m3

MiniMax · MiniMax Community License

1454+22/-22

789

$0.60 / $2.40

N/A

2645

glm-4.7

Z.ai · MIT

1449+12/-12

4,756

$0.40 / $1.75

202.8K

2650

glm-5

Z.ai · MIT

1443+20/-20

903

$1 / $3.20

202.8K

3049

gemini-3-flash

Google · Proprietary

1440+10/-10

9,257

$0.50 / $3

2753

mimo-v2-pro

Xiaomi · Proprietary

1437+21/-21

799

$1 / $3

2067

gpt-5.4

OpenAI · Proprietary

1432+56/-56

108

$2.50 / $15

1.1M

3056

deepseek-v4-pro

DeepSeek · MIT

1428+19/-19

1,077

$0.43 / $0.87

2864

gpt-5.3-codex (codex-harness)

OpenAI · Proprietary

1424+30/-30

396

$1.75 / $14

400K

3456

kimi-k2.5-thinking

Moonshot · Modified MIT

1423+13/-13

2,166

$0.60 / $3

N/A

2964

gpt-5.3-codex (codex-harness)

OpenAI · Proprietary

1419+32/-32

360

$1.75 / $14

400K

3462

gpt-5.4-mini-high

OpenAI · Proprietary

1418+17/-17

1,278

$0.75 / $4.50

400K

3663

gpt-5.2

OpenAI · Proprietary

1414+18/-18

1,455

$1.75 / $14

400K

3264

kimi-k2.5-instant

Moonshot · Modified MIT

1414+25/-25

591

$0.57 / $2.85

262.1K

3764

mimo-v2.5

Xiaomi · MIT

1407+19/-19

1,073

$0.14 / $0.28

4064

minimax-m2.1-preview

MiniMax · MIT

1404+11/-11

6,770

$0.30 / $1.20

204.8K

3964

qwen3.5-397b-a17b

Alibaba · Apache 2.0

1403+14/-14

1,878

$0.39 / $2.34

262.1K

3966

minimax-m2.5

MiniMax · Modified MIT

1402+19/-19

1,034

$0.15 / $0.90

204.8K

4064

gpt-5-medium

OpenAI · Proprietary

1402+14/-14

3,756

$1.25 / $10

400K

4264

gpt-5.1-medium

OpenAI · Proprietary

1398+11/-11

6,096

$1.25 / $10

400K

4364

gemini-3-flash (thinking-minimal)

Google · Proprietary

1397+9/-9

7,091

$0.50 / $3

4364

claude-sonnet-4-5-20250929-thinking-32k

Anthropic · Proprietary

1396+9/-9

11,308

$3 / $15

200K

4067

minimax-m2.7

MiniMax · Modified MIT

1394+17/-17

1,316

$0.25 / $1

204.8K

4366

claude-opus-4-1-20250805

Anthropic · Proprietary

1393+10/-10

8,550

$15 / $75

200K

3974

inkling

Thinky · Apache 2.0

1387+33/-33

322

$1 / $4.05

4567

claude-sonnet-4-5-20250929

Anthropic · Proprietary

1386+9/-9

12,956

$3 / $15

200K

4373

qwen3.5-27b

Alibaba · Apache 2.0

1383+20/-20

926

$0.26 / $2.60

262.1K

3481

glm-5v-turbo

Z.ai · Proprietary

1380+55/-55

136

$1.20 / $4

202.8K

5574

deepseek-v3.2-thinking

DeepSeek · MIT

1372+12/-12

4,002

$0.27 / $0.40

163.8K

5777

grok-4.20-beta-0309-reasoning

SpaceXAI · Proprietary

1365+16/-16

1,480

$2 / $6

5580

gemma-4-31b

Google · Apache 2.0

1364+22/-22

761

$0.14 / $0.40

262.1K

6076

glm-4.6

Z.ai · MIT

1363+10/-10

8,316

$0.50 / $2

202.8K

6077

mimo-v2-flash (non-thinking)

Xiaomi · MIT

1361+12/-12

4,113

$0.10 / $0.30

262.1K

6077

gpt-5.1

OpenAI · Proprietary

1360+10/-10

9,997

$1.25 / $10

400K

4385

hunyuan-hy3-preview

Tencent · tencent-hunyuan-community

1357+44/-44

186

N/A

4485

gemma-4-26b-a4b

Google · Apache 2.0

1354+44/-44

204

N/A

6080

grok-4.3

SpaceXAI · Proprietary

1354+20/-20

1,034

$1.25 / $2.50

6080

mimo-v2-flash (thinking)

Xiaomi · MIT

1349+19/-19

1,186

$0.10 / $0.30

262.1K

6080

qwen3.5-122b-a10b

Alibaba · Apache 2.0

1348+19/-19

986

$0.26 / $2.08

262.1K

6380

gpt-5.2-codex

OpenAI · Proprietary

1340+13/-13

3,136

$1.75 / $14

400K

6781

gpt-5.1-codex

OpenAI · Proprietary

1337+11/-11

6,199

$1.25 / $10

400K

6780

kimi-k2-thinking-turbo

Moonshot · Modified MIT

1336+10/-10

9,968

$1.15 / $8

262.1K

6186

laguna-m.1

Poolside · Apache 2.0

1333+28/-28

498

$0.20 / $0.40

262.1K

6389

qwen3.5-35b-a3b

Alibaba · Apache 2.0

1316+37/-37

251

$0.14 / $1

262.1K

7586

claude-haiku-4-5-20251001

Anthropic · Proprietary

1316+9/-9

12,240

$1 / $5

200K

7586

minimax-m2

MiniMax · Apache 2.0

1312+10/-10

8,366

$0.30 / $1.20

204.8K

7587

deepseek-v3.2

DeepSeek · MIT

1307+11/-11

5,257

$0.27 / $0.40

163.8K

6492

qwen3.5-flash

Alibaba · Proprietary

1307+44/-44

194

N/A

6792

mistral-medium-3.5

Mistral · Modified MIT

1302+43/-43

233

$1.50 / $7.50

262.1K

7391

laguna-xs.2

Poolside · Apache 2.0

1297+30/-30

472

$0.10 / $0.20

262.1K

7788

deepseek-v3.2-exp

DeepSeek · MIT

1295+12/-12

4,869

$0.27 / $0.41

163.8K

8089

qwen3-coder-480b-a35b-instruct

Alibaba · Apache 2.0

1291+9/-9

10,764

$0.40 / $1.60

262.1K

8192

gemini-3.1-flash-lite-preview

Google · Proprietary

1274+17/-17

1,615

$0.25 / $1.50

7597

trinity-large-thinking

Apache 2.0

1271+46/-46

196

$0.25 / $0.80

262.1K

8293

KAT-Coder-Pro-V1

Proprietary

1267+16/-16

1,879

$0.21 / $0.83

256K

8596

gpt-5.1-codex-mini

OpenAI · Proprietary

1248+18/-18

1,445

$0.25 / $2

400K

8896

grok-4-1-fast-reasoning

SpaceXAI · Proprietary

1244+12/-12

5,450

$0.20 / $0.50

8997

mistral-large-3

Mistral · Apache 2.0

1230+21/-21

1,034

$0.50 / $1.50

N/A

8498

granite-4.1-8b

IBM · Apache 2.0

1226+49/-49

219

$0.05 / $0.10

131.1K

8997

grok-4.1-thinking

SpaceXAI · Proprietary

1217+20/-20

1,209

N/A

8997

devstral-2

Mistral · Modified MIT

1216+19/-19

1,349

N/A

9197

gemini-2.5-pro

Google · Proprietary

1211+14/-14

3,299

$1.25 / $10

8499

mercury-2

Inception AI · Proprietary

1207+70/-70

100

$0.25 / $0.75

128K

9699

grok-4-fast-reasoning

SpaceXAI · Proprietary

1158+24/-24

935

$0.20 / $0.50

9799

grok-code-fast-1

SpaceXAI · Proprietary

1146+23/-23

981

$0.20 / $1.50

N/A

100

100100

devstral-medium-2507

Mistral · Proprietary

1098+23/-23

993

$0.40 / $2

128K

Code Arena | WebDevHTML

Remove Style Control Leaderboard Plots

Confidence Intervals on Model Strength (via Bootstrapping)

Fraction of Model A Wins for All Non-tied A vs. B Battles

Battle Count for Each Combination of Models (without Ties)

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)

Domain

Code Arena | WebDevHTML

Remove Style Control Leaderboard Plots

Confidence Intervals on Model Strength (via Bootstrapping)

Fraction of Model A Wins for All Non-tied A vs. B Battles

Battle Count for Each Combination of Models (without Ties)

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)