Code Arena🏆Overall

View overall rankings across AI models on agentic coding tasks involving multi-step reasoning and tool use.

Apr 9, 2026

231,158 votes

60 models

	Rank Spread
1	13	claude-opus-4-6-thinking Anthropic · Proprietary	1548+11/-11	4,015	$5 / $25	1M
2	13	claude-opus-4-6 Anthropic · Proprietary	1542+10/-10	4,841	$5 / $25	1M
3	14	glm-5.1 Z.ai · MIT	1530+20/-20	1,046	$0.95 / $3.15	202.8K
4	34	claude-sonnet-4-6 Anthropic · Proprietary	1521+9/-9	6,979	$3 / $15	1M
5	55	claude-opus-4-5-20251101-thinking-32k Anthropic · Proprietary	1490+7/-7	13,065	$5 / $25	200K
6	69	claude-opus-4-5-20251101 Anthropic · Proprietary	1466+7/-7	14,517	$5 / $25	200K
7	615	gpt-5.4-high (codex-harness) OpenAI · Proprietary	1457+17/-17	1,485	$2.50 / $15	1.1M
8	612	gemini-3.1-pro-preview Google · Proprietary	1456+9/-9	5,819	$2 / $12	1M
9	615	qwen3.6-plus-preview Alibaba · Proprietary	1453+14/-14	2,112	$0.33 / $1.95	1M
10	717	glm-4.7 Z.ai · MIT	1439+10/-10	4,878	$0.39 / $1.75	202.8K
11	717	glm-5 Z.ai · MIT	1439+10/-10	4,731	$1 / $3.20	202.8K
12	817	gemini-3-pro Google · Proprietary	1438+7/-7	17,157	$2 / $12	1M
13	717	gpt-5.4-medium (codex-harness) OpenAI · Proprietary	1437+16/-16	1,449	$2.50 / $15	1.1M
14	817	gemini-3-flash Google · Proprietary	1436+7/-7	13,265	$0.50 / $3	1M
15	817	mimo-v2-pro Xiaomi · Proprietary	1433+12/-12	3,049	$1 / $3	1M
16	1017	kimi-k2.5-thinking Moonshot · Modified MIT	1429+8/-8	6,480	$0.60 / $3	N/A
17	1020	minimax-m2.7 MiniMax · Proprietary	1425+12/-12	2,884	$0.30 / $1.20	204.8K
18	1726	kimi-k2.5-instant Moonshot · Modified MIT	1408+11/-11	3,610	$0.38 / $1.72	262.1K
19	1728	gpt-5.3-codex (codex-harness) OpenAI · Proprietary	1407+12/-12	2,971	$1.75 / $14	400K
20	1731	gpt-5.2 OpenAI · Proprietary	1403+17/-17	1,461	$1.75 / $14	400K
21	1831	grok-4.20-beta-0309-reasoning xAI · Proprietary	1393+11/-11	3,156	$2 / $6	2M
22	1831	gpt-5-medium OpenAI · Proprietary	1393+13/-13	3,755	$1.25 / $10	400K
23	1831	minimax-m2.5 MiniMax · Modified MIT	1392+8/-8	7,024	$0.12 / $0.99	196.6K
24	1831	minimax-m2.1-preview MiniMax · MIT	1391+8/-8	9,271	$0.29 / $0.95	196.6K
25	1831	gpt-5.1-medium OpenAI · Proprietary	1390+9/-9	6,124	$1.25 / $10	400K
26	1931	gemini-3-flash (thinking-minimal) Google · Proprietary	1390+7/-7	12,511	$0.50 / $3	1M
27	2031	claude-sonnet-4-5-20250929-thinking-32k Anthropic · Proprietary	1388+6/-6	15,742	$3 / $15	200K
28	1833	gpt-5.4-mini-high OpenAI · Proprietary	1388+15/-15	1,651	$2.50 / $15	1.1M
29	1931	qwen3.5-397b-a17b Alibaba · Apache 2.0	1386+9/-9	5,824	$0.39 / $2.34	262.1K
30	2031	claude-sonnet-4-5-20250929 Anthropic · Proprietary	1386+6/-6	18,527	$3 / $15	200K
31	2031	claude-opus-4-1-20250805 Anthropic · Proprietary	1385+9/-9	8,573	$15 / $75	200K
32	3134	deepseek-v3.2-thinking DeepSeek · MIT	1368+8/-8	7,992	$0.26 / $0.38	163.8K
33	3134	qwen3.5-122b-a10b Alibaba · Apache 2.0	1365+10/-10	4,562	$0.26 / $2.08	262.1K
34	3236	glm-4.6 Z.ai · MIT	1354+9/-9	8,350	$0.39 / $1.90	204.8K
35	3441	qwen3.5-27b Alibaba · Apache 2.0	1344+10/-10	4,206	$0.20 / $1.56	262.1K
36	3441	gpt-5.1 OpenAI · Proprietary	1339+7/-7	12,870	$1.25 / $10	400K
37	3541	mimo-v2-flash (non-thinking) Xiaomi · MIT	1337+8/-8	6,731	$0.09 / $0.29	262.1K
38	3541	gpt-5.2-codex OpenAI · Proprietary	1335+8/-8	7,763	$1.75 / $14	400K
39	3541	deepseek-v3.2 DeepSeek · MIT	1330+7/-7	9,859	$0.26 / $0.38	163.8K
40	3541	kimi-k2-thinking-turbo Moonshot · Modified MIT	1329+6/-6	15,484	$1.15 / $8	262.1K
41	3542	gpt-5.1-codex OpenAI · Proprietary	1329+9/-9	6,227	$1.25 / $10	400K
42	4144	claude-haiku-4-5-20251001 Anthropic · Proprietary	1315+6/-6	16,929	$1 / $5	200K
43	4245	minimax-m2 MiniMax · Apache 2.0	1304+9/-9	8,401	$0.26 / $1	196.6K
44	4246	mimo-v2-flash (thinking) Xiaomi · MIT	1300+14/-14	2,092	$0.09 / $0.29	262.1K
45	4346	deepseek-v3.2-exp DeepSeek · MIT	1286+11/-11	4,870	$0.27 / $0.41	163.8K
46	4446	qwen3-coder-480b-a35b-instruct Alibaba · Apache 2.0	1281+7/-7	15,206	$0.40 / $1.60	262.1K
47	4752	KAT-Coder-Pro-V1 KwaiKAT · Proprietary	1257+15/-15	1,883	$0.21 / $0.83	256K
48	4753	qwen3.5-35b-a3b Alibaba · Apache 2.0	1247+16/-16	1,818	$0.16 / $1.30	262.1K
49	4754	gpt-5.1-codex-mini OpenAI · Proprietary	1239+17/-17	1,444	$0.25 / $2	400K
50	4753	gemini-3.1-flash-lite-preview Google · Proprietary	1237+10/-10	5,394	$0.25 / $1.50	1M
51	4754	qwen3.5-flash Alibaba · Proprietary	1236+17/-17	1,562	N/A	N/A
52	4754	grok-4-1-fast-reasoning xAI · Proprietary	1233+9/-9	6,916	$0.20 / $0.50	2M
53	4856	mistral-large-3 Mistral · Apache 2.0	1222+20/-20	1,032	$0.50 / $1.50	N/A
54	5057	grok-4.1-thinking xAI · Proprietary	1207+20/-20	1,209	N/A	N/A
55	5356	gemini-2.5-pro Google · Proprietary	1202+13/-13	3,300	$1.25 / $10	1M
56	5357	devstral-2 Mistral · Modified MIT	1197+17/-17	1,577	N/A	N/A
57	5559	mercury-2 Inception AI · Proprietary	1166+23/-23	951	$0.25 / $0.75	128K
58	5759	grok-4-fast-reasoning xAI · Proprietary	1148+23/-23	936	$0.20 / $0.50	2M
59	5759	grok-code-fast-1 xAI · Proprietary	1139+22/-22	984	$0.20 / $1.50	256K
60	6060	devstral-medium-2507 Mistral · Proprietary	1091+23/-23	993	$0.40 / $2	128K

Code Arena🏆Overall

Remove Style Control Leaderboard Plots

Confidence Intervals on Model Strength (via Bootstrapping)

Battle Count for Each Combination of Models (without Ties)

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)

Fraction of Model A Wins for All Non-tied A vs. B Battles