Vision Arena🖼️Captioning

View overall rankings across multimodal AI models capable of reasoning over visual inputs.

Jun 5, 2026

4,074 votes

29 models

Rank by

	Rank Spread
1	118	gpt-5.2-high OpenAI · Proprietary	1276±60	81	$1.75 / $14	400K
2	113	gemini-3-pro Google · Proprietary	1273±36	222	$2 / $12	1M
3	122	gemini-3.1-pro-preview Google · Proprietary	1258±54	96	$2 / $12	1M
4	116	gemini-2.5-pro Google · Proprietary	1250±23	808	$1.25 / $10	1M
5	124	gpt-5.1-high OpenAI · Proprietary	1246±55	100	$1.25 / $10	400K
6	124	gemini-3-flash Google · Proprietary	1236±43	161	$0.50 / $3	1M
7	125	kimi-k2.5-thinking Moonshot · Modified MIT	1221±58	91	$0.60 / $3	N/A
8	124	gemini-2.5-flash Google · Proprietary	1213±25	595	$0.30 / $2.50	1M
9	124	chatgpt-4o-latest-20250326 OpenAI · Proprietary	1213±34	286	$5 / $15	128K
10	124	gpt-4.1-2025-04-14 OpenAI · Proprietary	1209±30	441	$2 / $8	1M
11	126	gemini-3-flash (thinking-minimal) Google · Proprietary	1206±47	143	$0.50 / $3	1M
12	125	qwen3-vl-235b-a22b-instruct Alibaba · Apache 2.0	1206±46	148	$0.20 / $0.88	262.1K
13	224	gpt-5-chat OpenAI · Proprietary	1201±30	401	$1.25 / $10	128K
14	224	gpt-4.1-mini-2025-04-14 OpenAI · Proprietary	1197±32	408	$0.40 / $1.60	1M
15	326	gpt-5-high OpenAI · Proprietary	1188±34	382	$1.25 / $10	400K
16	326	gemini-2.5-flash-lite-preview-06-17-thinking Google · Proprietary	1188±31	404	$0.10 / $0.40	1M
17	228	gpt-5.1 OpenAI · Proprietary	1186±47	125	$1.25 / $10	400K
18	128	gemma-4-31b Google · Apache 2.0	1185±72	55	$0.14 / $0.40	262.1K
19	426	o3-2025-04-16 OpenAI · Proprietary	1180±28	560	$2 / $8	200K
20	426	o4-mini-2025-04-16 OpenAI · Proprietary	1177±29	442	$1.10 / $4.40	200K
21	428	gpt-5-mini-high OpenAI · Proprietary	1165±41	302	$0.25 / $2	400K
22	528	grok-4-0709 xAI · Proprietary	1164±35	376	$3 / $15	256K
23	429	gpt-5.2 OpenAI · Proprietary	1153±60	88	$1.75 / $14	400K
24	529	gemini-2.0-flash-001 Google · Proprietary	1145±58	110	$0.10 / $0.40	1M
25	1428	mistral-medium-2508 Mistral · Proprietary	1131±29	410	$2.70 / $8.10	32K
26	1229	mistral-small-3.1-24b-instruct-2503 Mistral · Apache 2.0	1129±36	280	$0.10 / $0.30	32K
27	1929	gemma-3-27b-it Google · Gemma	1110±37	273	$0.08 / $0.16	131.1K
28	1929	mistral-medium-2505 Mistral · Proprietary	1096±47	167	$0.40 / $2	131.1K
29	2429	mistral-small-2506 Mistral · Apache 2.0	1052±46	193	$0.10 / $0.30	32K

Vision Arena🖼️Captioning

Default Leaderboard Plots

Confidence Intervals on Model Strength (via Bootstrapping)

Battle Count for Each Combination of Models (without Ties)

Fraction of Model A Wins for All Non-tied A vs. B Battles

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)