WebDev AI Leaderboard - Best AI Models for Web Development

	Rank Spread
1	11	kimi-k3 Moonshot · Proprietary	1679+17/-17	1,757	$3 / $15	1M
2	23	claude-fable-5 Anthropic · Proprietary	1631+13/-13	2,505	$10 / $50	1M
3	23	gpt-5.6-sol-xhigh (codex-harness) OpenAI · Proprietary	1618+13/-13	2,542	$5 / $30	1.1M
4	44	glm-5.2 (max) Z.ai · MIT	1587+10/-10	4,722	$1.40 / $4.40	1M
5	59	claude-opus-4-8-thinking Anthropic · Proprietary	1562+9/-9	7,309	$5 / $25	1M
6	511	grok-4.5 SpaceXAI · Proprietary	1558+13/-13	2,214	$2 / $6	500K
7	510	claude-opus-4-7-thinking Anthropic · Proprietary	1558+7/-7	10,534	$5 / $25	1M
8	511	claude-opus-4-7 Anthropic · Proprietary	1555+7/-7	9,976	$5 / $25	1M
9	714	claude-opus-4-6-thinking Anthropic · Proprietary	1542+6/-6	12,919	$5 / $25	1M
10	515	claude-sonnet-5-high Anthropic · Proprietary	1542+12/-12	2,959	$2 / $10	1M
11	617	muse-spark-1.1 Meta · Proprietary	1538+14/-14	2,083	$1.25 / $4.25	N/A
12	915	claude-opus-4-6 Anthropic · Proprietary	1536+6/-6	14,105	$5 / $25	1M
13	916	claude-opus-4-8 Anthropic · Proprietary	1534+9/-9	6,003	$5 / $25	1M
14	917	seed-2.1-pro-preview Bytedance · Proprietary	1534+10/-10	3,909	N/A	N/A
15	1018	glm-5.1 Z.ai · MIT	1526+9/-9	5,870	$1.40 / $4.40	202.8K
16	1219	claude-sonnet-4-6 Anthropic · Proprietary	1522+6/-6	16,293	$3 / $15	1M
17	1320	qwen3.7-max-20260517 Alibaba · Proprietary	1516+8/-8	6,455	$1.48 / $4.42	1M
18	1520	kimi-k2.6 Moonshot · Modified MIT	1515+7/-7	9,321	$0.95 / $4	262.1K
19	1624	gemini-3.5-flash Google · Proprietary	1504+13/-13	2,293	$1.50 / $9	1M
20	1723	gpt-5.5-xhigh (codex-harness) OpenAI · Proprietary	1504+7/-7	9,169	$5 / $30	N/A
21	1925	minimax-m3 MiniMax · MiniMax Community License	1493+8/-8	6,302	$0.60 / $2.40	N/A
22	1925	gemini-3.5-flash-medium Google · Proprietary	1493+9/-9	5,679	$1.50 / $9	1M
23	1925	claude-opus-4-5-20251101-thinking-32k Anthropic · Proprietary	1490+7/-7	13,056	$5 / $25	200K
24	2127	gpt-5.5-high (codex-harness) OpenAI · Proprietary	1482+7/-7	11,109	N/A	N/A
25	2029	qwen3.6-max-preview Alibaba · Proprietary	1480+12/-12	2,551	$1.04 / $6.24	262.1K
26	2429	mimo-v2.5-pro Xiaomi · MIT	1474+7/-7	9,525	$0.43 / $0.87	1M
27	2431	kimi-k2.7-code Moonshot · Modified MIT	1470+9/-9	4,578	$1 / $4.40	262.1K
28	2531	claude-opus-4-5-20251101 Anthropic · Proprietary	1466+6/-6	15,321	$5 / $25	200K
29	2734	qwen3.6-plus Alibaba · Proprietary	1459+6/-6	11,987	$0.33 / $1.95	1M
30	2734	deepseek-v4-pro-thinking DeepSeek · MIT	1459+7/-7	8,952	$0.43 / $0.87	1M
31	2539	gpt-5.4-high (codex-harness) OpenAI · Proprietary	1457+17/-17	1,482	$2.50 / $15	1.1M
32	2939	gpt-5.5 (codex-harness) OpenAI · Proprietary	1450+7/-7	9,278	N/A	N/A
33	2939	deepseek-v4-pro DeepSeek · MIT	1447+7/-7	9,723	$0.43 / $0.87	1M
34	3141	gemini-3.1-pro-preview Google · Proprietary	1444+6/-6	17,410	$2 / $12	1M
35	3143	glm-4.7 Z.ai · MIT	1440+10/-10	4,883	$0.40 / $1.75	202.8K
36	3143	gemini-3-pro Google · Proprietary	1439+7/-7	17,150	$2 / $12	1M
37	2944	gpt-5.4-medium (codex-harness) OpenAI · Proprietary	1437+16/-16	1,449	$2.50 / $15	1.1M
38	3143	gemini-3-flash Google · Proprietary	1437+8/-8	13,272	$0.50 / $3	1M
39	3144	inkling Thinky · Apache 2.0	1434+16/-16	1,506	$1 / $4.05	1M
40	3443	kimi-k2.5-thinking Moonshot · Modified MIT	1433+6/-6	15,192	$0.60 / $3	N/A
41	3443	mimo-v2-pro Xiaomi · Proprietary	1431+8/-8	6,894	$1 / $3	1M
42	3543	glm-5 Z.ai · MIT	1430+8/-8	7,452	$1 / $3.20	202.8K
43	3544	mimo-v2.5 Xiaomi · MIT	1429+7/-7	8,628	$0.14 / $0.28	1M
44	4454	kimi-k2.5-instant Moonshot · Modified MIT	1408+11/-11	3,611	$0.57 / $2.85	262.1K
45	4456	gpt-5.3-codex (codex-harness) OpenAI · Proprietary	1406+12/-12	2,964	$1.75 / $14	400K
46	4159	gpt-5.2 OpenAI · Proprietary	1406+17/-17	1,455	$1.75 / $14	400K
47	4458	gpt-5.4-mini-high OpenAI · Proprietary	1398+7/-7	10,238	$0.75 / $4.50	400K
48	4458	qwen3.5-397b-a17b Alibaba · Apache 2.0	1396+6/-6	14,672	$0.39 / $2.34	262.1K
49	4459	minimax-m2.7 MiniMax · Modified MIT	1395+7/-7	10,629	$0.25 / $1	204.8K
50	4464	glm-5v-turbo Z.ai · Proprietary	1395+19/-19	1,061	$1.20 / $4	202.8K
51	4461	gpt-5-medium OpenAI · Proprietary	1395+13/-13	3,753	$1.25 / $10	400K
52	4460	minimax-m2.1-preview MiniMax · MIT	1392+8/-8	9,270	$0.30 / $1.20	204.8K
53	4461	gpt-5.1-medium OpenAI · Proprietary	1391+10/-10	6,117	$1.25 / $10	400K
54	4561	claude-sonnet-4-5-20250929-thinking-32k Anthropic · Proprietary	1388+7/-7	15,743	$3 / $15	200K
55	4660	gemini-3-flash (thinking-minimal) Google · Proprietary	1387+5/-5	21,511	$0.50 / $3	1M
56	4661	claude-sonnet-4-5-20250929 Anthropic · Proprietary	1386+6/-6	18,417	$3 / $15	200K
57	4562	claude-opus-4-1-20250805 Anthropic · Proprietary	1386+9/-9	8,564	$15 / $75	200K
58	4467	gpt-5.4 OpenAI · Proprietary	1386+20/-20	929	$2.50 / $15	1.1M
59	4865	minimax-m2.5 MiniMax · Modified MIT	1382+8/-8	7,864	$0.15 / $0.90	204.8K
60	5065	grok-4.20-beta-0309-reasoning SpaceXAI · Proprietary	1381+6/-6	13,163	$2 / $6	2M
61	5270	gpt-5.3-codex (codex-harness) OpenAI · Proprietary	1371+11/-11	3,579	$1.75 / $14	400K
62	5770	deepseek-v3.2-thinking DeepSeek · MIT	1368+8/-8	7,921	$0.27 / $0.40	163.8K
63	5870	gemma-4-31b Google · Apache 2.0	1367+8/-8	6,476	$0.14 / $0.40	262.1K
64	6070	qwen3.5-122b-a10b Alibaba · Apache 2.0	1364+7/-7	8,240	$0.26 / $2.08	262.1K
65	5672	hunyuan-hy3-preview Tencent · tencent-hunyuan-community	1361+17/-17	1,384	N/A	N/A
66	5772	gemma-4-26b-a4b Google · Apache 2.0	1361+16/-16	1,514	N/A	N/A
67	6070	grok-4.3 SpaceXAI · Proprietary	1360+7/-7	8,430	$1.25 / $2.50	1M
68	6170	qwen3.5-27b Alibaba · Apache 2.0	1356+8/-8	7,739	$0.26 / $2.60	262.1K
69	6171	glm-4.6 Z.ai · MIT	1355+9/-9	8,346	$0.50 / $2	202.8K
70	6172	laguna-m.1 Poolside · Apache 2.0	1355+10/-10	3,942	$0.20 / $0.40	262.1K
71	6776	gpt-5.1 OpenAI · Proprietary	1340+7/-7	12,867	$1.25 / $10	400K
72	6877	mimo-v2-flash (non-thinking) Xiaomi · MIT	1336+8/-8	6,731	$0.10 / $0.30	262.1K
73	7177	gpt-5.2-codex OpenAI · Proprietary	1334+8/-8	7,772	$1.75 / $14	400K
74	7177	deepseek-v3.2 DeepSeek · MIT	1332+7/-7	10,496	$0.27 / $0.40	163.8K
75	7177	gpt-5.1-codex OpenAI · Proprietary	1330+10/-10	6,213	$1.25 / $10	400K
76	7177	kimi-k2-thinking-turbo Moonshot · Modified MIT	1330+6/-6	15,358	$1.15 / $8	262.1K
77	7277	claude-haiku-4-5-20251001 Anthropic · Proprietary	1327+5/-5	25,958	$1 / $5	200K
78	7881	minimax-m2 MiniMax · Apache 2.0	1305+9/-9	8,393	$0.26 / $1.02	204.8K
79	7881	laguna-xs.2 Poolside · Apache 2.0	1303+11/-11	3,882	$0.10 / $0.20	262.1K
80	7882	mimo-v2-flash (thinking) Xiaomi · MIT	1300+14/-14	2,097	$0.10 / $0.30	262.1K
81	7883	deepseek-v3.2-exp DeepSeek · MIT	1288+11/-11	4,870	$0.27 / $0.41	163.8K
82	8083	qwen3-coder-480b-a35b-instruct Alibaba · Apache 2.0	1281+7/-7	15,213	$0.40 / $1.60	262.1K
83	8189	mistral-medium-3.5 Mistral · Modified MIT	1267+15/-15	2,168	$1.50 / $7.50	262.1K
84	8391	KAT-Coder-Pro-V1 Proprietary	1259+16/-16	1,879	$0.21 / $0.83	256K
85	8389	gemini-3.1-flash-lite-preview Google · Proprietary	1253+7/-7	13,607	$0.25 / $1.50	1M
86	8391	qwen3.5-35b-a3b Alibaba · Apache 2.0	1250+16/-16	1,815	$0.14 / $1	262.1K
87	8392	trinity-large-thinking Apache 2.0	1243+19/-19	1,321	$0.25 / $0.80	262.1K
88	8392	gpt-5.1-codex-mini OpenAI · Proprietary	1240+18/-18	1,445	$0.25 / $2	400K
89	8392	qwen3.5-flash Alibaba · Proprietary	1237+17/-17	1,561	N/A	N/A
90	8592	grok-4-1-fast-reasoning SpaceXAI · Proprietary	1234+9/-9	6,905	$0.20 / $0.50	2M
91	8595	mistral-large-3 Mistral · Apache 2.0	1224+20/-20	1,034	$0.50 / $1.50	N/A
92	8795	grok-4.1-thinking SpaceXAI · Proprietary	1209+20/-20	1,209	N/A	N/A
93	9195	gemini-2.5-pro Google · Proprietary	1204+13/-13	3,299	$1.25 / $10	1M
94	9196	devstral-2 Mistral · Modified MIT	1200+17/-17	1,587	N/A	N/A
95	9196	granite-4.1-8b IBM · Apache 2.0	1199+17/-17	1,773	$0.05 / $0.10	131.1K
96	9498	mercury-2 Inception AI · Proprietary	1164+23/-23	947	$0.25 / $0.75	128K
97	9698	grok-4-fast-reasoning SpaceXAI · Proprietary	1150+23/-23	934	$0.20 / $0.50	2M
98	9698	grok-code-fast-1 SpaceXAI · Proprietary	1140+22/-22	982	$0.20 / $1.50	N/A
99	9999	devstral-medium-2507 Mistral · Proprietary	1092+23/-23	992	$0.40 / $2	128K

Rank Spread

kimi-k3

Moonshot · Proprietary

1679+17/-17

1,757

$3 / $15

claude-fable-5

Anthropic · Proprietary

1631+13/-13

2,505

$10 / $50

gpt-5.6-sol-xhigh (codex-harness)

OpenAI · Proprietary

1618+13/-13

2,542

$5 / $30

1.1M

glm-5.2 (max)

Z.ai · MIT

1587+10/-10

4,722

$1.40 / $4.40

claude-opus-4-8-thinking

Anthropic · Proprietary

1562+9/-9

7,309

$5 / $25

511

grok-4.5

SpaceXAI · Proprietary

1558+13/-13

2,214

$2 / $6

500K

510

claude-opus-4-7-thinking

Anthropic · Proprietary

1558+7/-7

10,534

$5 / $25

511

claude-opus-4-7

Anthropic · Proprietary

1555+7/-7

9,976

$5 / $25

714

claude-opus-4-6-thinking

Anthropic · Proprietary

1542+6/-6

12,919

$5 / $25

515

claude-sonnet-5-high

Anthropic · Proprietary

1542+12/-12

2,959

$2 / $10

617

muse-spark-1.1

Meta · Proprietary

1538+14/-14

2,083

$1.25 / $4.25

N/A

915

claude-opus-4-6

Anthropic · Proprietary

1536+6/-6

14,105

$5 / $25

916

claude-opus-4-8

Anthropic · Proprietary

1534+9/-9

6,003

$5 / $25

917

seed-2.1-pro-preview

Bytedance · Proprietary

1534+10/-10

3,909

N/A

1018

glm-5.1

Z.ai · MIT

1526+9/-9

5,870

$1.40 / $4.40

202.8K

1219

claude-sonnet-4-6

Anthropic · Proprietary

1522+6/-6

16,293

$3 / $15

1320

qwen3.7-max-20260517

Alibaba · Proprietary

1516+8/-8

6,455

$1.48 / $4.42

1520

kimi-k2.6

Moonshot · Modified MIT

1515+7/-7

9,321

$0.95 / $4

262.1K

1624

gemini-3.5-flash

Google · Proprietary

1504+13/-13

2,293

$1.50 / $9

1723

gpt-5.5-xhigh (codex-harness)

OpenAI · Proprietary

1504+7/-7

9,169

$5 / $30

N/A

1925

minimax-m3

MiniMax · MiniMax Community License

1493+8/-8

6,302

$0.60 / $2.40

N/A

1925

gemini-3.5-flash-medium

Google · Proprietary

1493+9/-9

5,679

$1.50 / $9

1925

claude-opus-4-5-20251101-thinking-32k

Anthropic · Proprietary

1490+7/-7

13,056

$5 / $25

200K

2127

gpt-5.5-high (codex-harness)

OpenAI · Proprietary

1482+7/-7

11,109

N/A

2029

qwen3.6-max-preview

Alibaba · Proprietary

1480+12/-12

2,551

$1.04 / $6.24

262.1K

2429

mimo-v2.5-pro

Xiaomi · MIT

1474+7/-7

9,525

$0.43 / $0.87

2431

kimi-k2.7-code

Moonshot · Modified MIT

1470+9/-9

4,578

$1 / $4.40

262.1K

2531

claude-opus-4-5-20251101

Anthropic · Proprietary

1466+6/-6

15,321

$5 / $25

200K

2734

qwen3.6-plus

Alibaba · Proprietary

1459+6/-6

11,987

$0.33 / $1.95

2734

deepseek-v4-pro-thinking

DeepSeek · MIT

1459+7/-7

8,952

$0.43 / $0.87

2539

gpt-5.4-high (codex-harness)

OpenAI · Proprietary

1457+17/-17

1,482

$2.50 / $15

1.1M

2939

gpt-5.5 (codex-harness)

OpenAI · Proprietary

1450+7/-7

9,278

N/A

2939

deepseek-v4-pro

DeepSeek · MIT

1447+7/-7

9,723

$0.43 / $0.87

3141

gemini-3.1-pro-preview

Google · Proprietary

1444+6/-6

17,410

$2 / $12

3143

glm-4.7

Z.ai · MIT

1440+10/-10

4,883

$0.40 / $1.75

202.8K

3143

gemini-3-pro

Google · Proprietary

1439+7/-7

17,150

$2 / $12

2944

gpt-5.4-medium (codex-harness)

OpenAI · Proprietary

1437+16/-16

1,449

$2.50 / $15

1.1M

3143

gemini-3-flash

Google · Proprietary

1437+8/-8

13,272

$0.50 / $3

3144

inkling

Thinky · Apache 2.0

1434+16/-16

1,506

$1 / $4.05

3443

kimi-k2.5-thinking

Moonshot · Modified MIT

1433+6/-6

15,192

$0.60 / $3

N/A

3443

mimo-v2-pro

Xiaomi · Proprietary

1431+8/-8

6,894

$1 / $3

3543

glm-5

Z.ai · MIT

1430+8/-8

7,452

$1 / $3.20

202.8K

3544

mimo-v2.5

Xiaomi · MIT

1429+7/-7

8,628

$0.14 / $0.28

4454

kimi-k2.5-instant

Moonshot · Modified MIT

1408+11/-11

3,611

$0.57 / $2.85

262.1K

4456

gpt-5.3-codex (codex-harness)

OpenAI · Proprietary

1406+12/-12

2,964

$1.75 / $14

400K

4159

gpt-5.2

OpenAI · Proprietary

1406+17/-17

1,455

$1.75 / $14

400K

4458

gpt-5.4-mini-high

OpenAI · Proprietary

1398+7/-7

10,238

$0.75 / $4.50

400K

4458

qwen3.5-397b-a17b

Alibaba · Apache 2.0

1396+6/-6

14,672

$0.39 / $2.34

262.1K

4459

minimax-m2.7

MiniMax · Modified MIT

1395+7/-7

10,629

$0.25 / $1

204.8K

4464

glm-5v-turbo

Z.ai · Proprietary

1395+19/-19

1,061

$1.20 / $4

202.8K

4461

gpt-5-medium

OpenAI · Proprietary

1395+13/-13

3,753

$1.25 / $10

400K

4460

minimax-m2.1-preview

MiniMax · MIT

1392+8/-8

9,270

$0.30 / $1.20

204.8K

4461

gpt-5.1-medium

OpenAI · Proprietary

1391+10/-10

6,117

$1.25 / $10

400K

4561

claude-sonnet-4-5-20250929-thinking-32k

Anthropic · Proprietary

1388+7/-7

15,743

$3 / $15

200K

4660

gemini-3-flash (thinking-minimal)

Google · Proprietary

1387+5/-5

21,511

$0.50 / $3

4661

claude-sonnet-4-5-20250929

Anthropic · Proprietary

1386+6/-6

18,417

$3 / $15

200K

4562

claude-opus-4-1-20250805

Anthropic · Proprietary

1386+9/-9

8,564

$15 / $75

200K

4467

gpt-5.4

OpenAI · Proprietary

1386+20/-20

929

$2.50 / $15

1.1M

4865

minimax-m2.5

MiniMax · Modified MIT

1382+8/-8

7,864

$0.15 / $0.90

204.8K

5065

grok-4.20-beta-0309-reasoning

SpaceXAI · Proprietary

1381+6/-6

13,163

$2 / $6

5270

gpt-5.3-codex (codex-harness)

OpenAI · Proprietary

1371+11/-11

3,579

$1.75 / $14

400K

5770

deepseek-v3.2-thinking

DeepSeek · MIT

1368+8/-8

7,921

$0.27 / $0.40

163.8K

5870

gemma-4-31b

Google · Apache 2.0

1367+8/-8

6,476

$0.14 / $0.40

262.1K

6070

qwen3.5-122b-a10b

Alibaba · Apache 2.0

1364+7/-7

8,240

$0.26 / $2.08

262.1K

5672

hunyuan-hy3-preview

Tencent · tencent-hunyuan-community

1361+17/-17

1,384

N/A

5772

gemma-4-26b-a4b

Google · Apache 2.0

1361+16/-16

1,514

N/A

6070

grok-4.3

SpaceXAI · Proprietary

1360+7/-7

8,430

$1.25 / $2.50

6170

qwen3.5-27b

Alibaba · Apache 2.0

1356+8/-8

7,739

$0.26 / $2.60

262.1K

6171

glm-4.6

Z.ai · MIT

1355+9/-9

8,346

$0.50 / $2

202.8K

6172

laguna-m.1

Poolside · Apache 2.0

1355+10/-10

3,942

$0.20 / $0.40

262.1K

6776

gpt-5.1

OpenAI · Proprietary

1340+7/-7

12,867

$1.25 / $10

400K

6877

mimo-v2-flash (non-thinking)

Xiaomi · MIT

1336+8/-8

6,731

$0.10 / $0.30

262.1K

7177

gpt-5.2-codex

OpenAI · Proprietary

1334+8/-8

7,772

$1.75 / $14

400K

7177

deepseek-v3.2

DeepSeek · MIT

1332+7/-7

10,496

$0.27 / $0.40

163.8K

7177

gpt-5.1-codex

OpenAI · Proprietary

1330+10/-10

6,213

$1.25 / $10

400K

7177

kimi-k2-thinking-turbo

Moonshot · Modified MIT

1330+6/-6

15,358

$1.15 / $8

262.1K

7277

claude-haiku-4-5-20251001

Anthropic · Proprietary

1327+5/-5

25,958

$1 / $5

200K

7881

minimax-m2

MiniMax · Apache 2.0

1305+9/-9

8,393

$0.26 / $1.02

204.8K

7881

laguna-xs.2

Poolside · Apache 2.0

1303+11/-11

3,882

$0.10 / $0.20

262.1K

7882

mimo-v2-flash (thinking)

Xiaomi · MIT

1300+14/-14

2,097

$0.10 / $0.30

262.1K

7883

deepseek-v3.2-exp

DeepSeek · MIT

1288+11/-11

4,870

$0.27 / $0.41

163.8K

8083

qwen3-coder-480b-a35b-instruct

Alibaba · Apache 2.0

1281+7/-7

15,213

$0.40 / $1.60

262.1K

8189

mistral-medium-3.5

Mistral · Modified MIT

1267+15/-15

2,168

$1.50 / $7.50

262.1K

8391

KAT-Coder-Pro-V1

Proprietary

1259+16/-16

1,879

$0.21 / $0.83

256K

8389

gemini-3.1-flash-lite-preview

Google · Proprietary

1253+7/-7

13,607

$0.25 / $1.50

8391

qwen3.5-35b-a3b

Alibaba · Apache 2.0

1250+16/-16

1,815

$0.14 / $1

262.1K

8392

trinity-large-thinking

Apache 2.0

1243+19/-19

1,321

$0.25 / $0.80

262.1K

8392

gpt-5.1-codex-mini

OpenAI · Proprietary

1240+18/-18

1,445

$0.25 / $2

400K

8392

qwen3.5-flash

Alibaba · Proprietary

1237+17/-17

1,561

N/A

8592

grok-4-1-fast-reasoning

SpaceXAI · Proprietary

1234+9/-9

6,905

$0.20 / $0.50

8595

mistral-large-3

Mistral · Apache 2.0

1224+20/-20

1,034

$0.50 / $1.50

N/A

8795

grok-4.1-thinking

SpaceXAI · Proprietary

1209+20/-20

1,209

N/A

9195

gemini-2.5-pro

Google · Proprietary

1204+13/-13

3,299

$1.25 / $10

9196

devstral-2

Mistral · Modified MIT

1200+17/-17

1,587

N/A

9196

granite-4.1-8b

IBM · Apache 2.0

1199+17/-17

1,773

$0.05 / $0.10

131.1K

9498

mercury-2

Inception AI · Proprietary

1164+23/-23

947

$0.25 / $0.75

128K

9698

grok-4-fast-reasoning

SpaceXAI · Proprietary

1150+23/-23

934

$0.20 / $0.50

9698

grok-code-fast-1

SpaceXAI · Proprietary

1140+22/-22

982

$0.20 / $1.50

N/A

9999

devstral-medium-2507

Mistral · Proprietary

1092+23/-23

992

$0.40 / $2

128K

Code Arena | WebDev🏆Overall

Remove Style Control Leaderboard Plots

Confidence Intervals on Model Strength (via Bootstrapping)

Battle Count for Each Combination of Models (without Ties)

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)

Fraction of Model A Wins for All Non-tied A vs. B Battles

Domain

Code Arena | WebDev🏆Overall

Remove Style Control Leaderboard Plots

Confidence Intervals on Model Strength (via Bootstrapping)

Battle Count for Each Combination of Models (without Ties)

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)

Fraction of Model A Wins for All Non-tied A vs. B Battles