Document Arena

View overall rankings across AI models in document analysis and long-content reasoning.

Jul 13, 2026

305,450 votes

32 models

Rank by

	Rank Spread
1	15	claude-opus-4-6-thinking Anthropic · Proprietary	1508±7	24,188	$5 / $25	1M
2	15	claude-fable-5 Anthropic · Proprietary	1507±12	2,644	$10 / $50	1M
3	15	claude-opus-4-6 Anthropic · Proprietary	1507±6	36,602	$5 / $25	1M
4	15	claude-opus-4-7-thinking Anthropic · Proprietary	1504±7	18,023	$5 / $25	1M
5	16	claude-opus-4-7 Anthropic · Proprietary	1501±7	18,185	$5 / $25	1M
6	59	gpt-5.5-high OpenAI · Proprietary	1488±7	15,996	$5 / $30	1.1M
7	610	claude-sonnet-4-6 Anthropic · Proprietary	1486±6	53,846	$3 / $15	1M
8	612	gpt-5.5 OpenAI · Proprietary	1481±6	16,410	$5 / $30	1.1M
9	614	claude-opus-4-8-thinking Anthropic · Proprietary	1475±8	7,546	$5 / $25	1M
10	814	gpt-5.4 OpenAI · Proprietary	1472±6	28,910	$2.50 / $15	1.1M
11	815	claude-opus-4-8 Anthropic · Proprietary	1469±8	7,298	$5 / $25	1M
12	715	claude-sonnet-5-high Anthropic · Proprietary	1469±11	2,809	$2 / $10	1M
13	918	gemini-3.5-flash-medium Google · Proprietary	1462±12	2,697	$1.50 / $9	1M
14	918	claude-opus-4-5-20251101 Anthropic · Proprietary	1461±10	7,985	$5 / $25	200K
15	1321	kimi-k2.6 Moonshot · Modified MIT	1449±8	11,094	$0.95 / $4	262.1K
16	1321	claude-sonnet-4-5-20250929 Anthropic · Proprietary	1446±6	27,977	$3 / $15	200K
17	1126	muse-spark Meta · Proprietary	1445±18	1,086	N/A	N/A
18	1322	qwen3.7-plus Alibaba · Proprietary	1444±11	2,700	$0.32 / $1.28	1M
19	1522	gemini-3.1-pro-preview Google · Proprietary	1441±5	44,046	$2 / $12	1M
20	1525	minimax-m3 MiniMax · MiniMax Community License	1435±8	6,328	$0.60 / $2.40	N/A
21	1526	gemini-3-pro Google · Proprietary	1434±9	10,748	$2 / $12	1M
22	1726	kimi-k2.5-thinking Moonshot · Modified MIT	1431±7	19,342	$0.60 / $3	N/A
23	1928	gemma-4-31b Google · Apache 2.0	1424±8	10,132	N/A	N/A
24	1928	gemini-2.5-pro Google · Proprietary	1422±6	25,053	$1.25 / $10	1M
25	2028	claude-haiku-4-5-20251001 Anthropic · Proprietary	1421±6	30,187	$1 / $5	200K
26	1931	glm-5v-turbo Z.ai · Proprietary	1418±10	4,243	$1.20 / $4	202.8K
27	2332	grok-4.20-beta-0309-reasoning SpaceXAI · Proprietary	1413±7	17,897	$2 / $6	2M
28	2332	gemini-3-flash Google · Proprietary	1413±9	7,179	$0.50 / $3	1M
29	2632	gpt-5.2-high OpenAI · Proprietary	1405±9	7,081	$1.75 / $14	400K
30	2632	gpt-5.5-instant OpenAI · Proprietary	1402±8	8,501	$5 / $30	1.1M
31	2632	gpt-5.1 OpenAI · Proprietary	1401±9	8,242	$1.25 / $10	400K
32	2732	gpt-5.2 OpenAI · Proprietary	1401±6	28,226	$1.75 / $14	400K

Remove Style Control Leaderboard Plots

Battle Count for Each Combination of Models (without Ties)

Fraction of Model A Wins for All Non-tied A vs. B Battles

Confidence Intervals on Model Strength (via Bootstrapping)

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)

Rank Spread

claude-opus-4-6-thinking

Anthropic · Proprietary

1508±7

24,188

$5 / $25

claude-fable-5

Anthropic · Proprietary

1507±12

2,644

$10 / $50

claude-opus-4-6

Anthropic · Proprietary

1507±6

36,602

$5 / $25

claude-opus-4-7-thinking

Anthropic · Proprietary

1504±7

18,023

$5 / $25

claude-opus-4-7

Anthropic · Proprietary

1501±7

18,185

$5 / $25

gpt-5.5-high

OpenAI · Proprietary

1488±7

15,996

$5 / $30

1.1M

610

claude-sonnet-4-6

Anthropic · Proprietary

1486±6

53,846

$3 / $15

612

gpt-5.5

OpenAI · Proprietary

1481±6

16,410

$5 / $30

1.1M

614

claude-opus-4-8-thinking

Anthropic · Proprietary

1475±8

7,546

$5 / $25

814

gpt-5.4

OpenAI · Proprietary

1472±6

28,910

$2.50 / $15

1.1M

815

claude-opus-4-8

Anthropic · Proprietary

1469±8

7,298

$5 / $25

715

claude-sonnet-5-high

Anthropic · Proprietary

1469±11

2,809

$2 / $10

918

gemini-3.5-flash-medium

Google · Proprietary

1462±12

2,697

$1.50 / $9

918

claude-opus-4-5-20251101

Anthropic · Proprietary

1461±10

7,985

$5 / $25

200K

1321

kimi-k2.6

Moonshot · Modified MIT

1449±8

11,094

$0.95 / $4

262.1K

1321

claude-sonnet-4-5-20250929

Anthropic · Proprietary

1446±6

27,977

$3 / $15

200K

1126

muse-spark

Meta · Proprietary

1445±18

1,086

N/A

1322

qwen3.7-plus

Alibaba · Proprietary

1444±11

2,700

$0.32 / $1.28

1522

gemini-3.1-pro-preview

Google · Proprietary

1441±5

44,046

$2 / $12

1525

minimax-m3

MiniMax · MiniMax Community License

1435±8

6,328

$0.60 / $2.40

N/A

1526

gemini-3-pro

Google · Proprietary

1434±9

10,748

$2 / $12

1726

kimi-k2.5-thinking

Moonshot · Modified MIT

1431±7

19,342

$0.60 / $3

N/A

1928

gemma-4-31b

Google · Apache 2.0

1424±8

10,132

N/A

1928

gemini-2.5-pro

Google · Proprietary

1422±6

25,053

$1.25 / $10

2028

claude-haiku-4-5-20251001

Anthropic · Proprietary

1421±6

30,187

$1 / $5

200K

1931

glm-5v-turbo

Z.ai · Proprietary

1418±10

4,243

$1.20 / $4

202.8K

2332

grok-4.20-beta-0309-reasoning

SpaceXAI · Proprietary

1413±7

17,897

$2 / $6

2332

gemini-3-flash

Google · Proprietary

1413±9

7,179

$0.50 / $3

2632

gpt-5.2-high

OpenAI · Proprietary

1405±9

7,081

$1.75 / $14

400K

2632

gpt-5.5-instant

OpenAI · Proprietary

1402±8

8,501

$5 / $30

1.1M

2632

gpt-5.1

OpenAI · Proprietary

1401±9

8,242

$1.25 / $10

400K

2732

gpt-5.2

OpenAI · Proprietary

1401±6

28,226

$1.75 / $14

400K