Marco Patzelt logoMarco Patzelt

SWE-Bench Verified Leaderboard Mai 2026

Aktuelle KI-Modell-Rankings und neueste Top-Scores aus SWE-Bench Verified, SWE-Bench Pro, Terminal-Bench 2.0 & Aider Polyglot — aktualisiert Mai 2026.

Filter:
#ModellAnbieterScore
1
GPT-5.5New · OpenAI-reported
OpenAI88.7%
2
Claude Opus 4.71M context
Anthropic87.6%
3
GPT-5.3-Codex
OpenAI85.0%
4
Claude Opus 4.5
Anthropic80.9%
5
Claude Opus 4.6
Anthropic80.8%
6
DeepSeek V4 Pro MaxNew · 1.6T MoE · Open-source
DeepSeek80.6%
7
Gemini 3.1 Pro
Google80.6%
8
Kimi K2.6New · 1T MoE · Open-weight
Moonshot AI80.2%
9
MiniMax M2.5Open-weight
MiniMax80.2%
10
GPT-5.2
OpenAI80.0%
11
Claude Sonnet 4.6
Anthropic79.6%
12
Qwen3.6 Plus
Alibaba78.8%
13
Gemini 3 Flash
Google78.0%
14
MiMo-V2-Pro1T params · Open-source
Xiaomi78.0%
15
GLM-5744B params · Open-source
Zhipu AI77.8%
16
Mistral Medium 3.5 128BNew · Open
Mistral77.6%
17
Muse SparkMSL flagship
Meta77.4%
18
Qwen3.6-27BNew · Dense · Apache 2.0
Alibaba77.2%
19
Claude Sonnet 4.5
Anthropic77.2%
20
Kimi K2.5Open-source
Moonshot AI76.8%
21
Gemini 3 Pro
Google76.2%
22
GPT-5.1
OpenAI74.9%
23
MiMo-V2-OmniOpen-source
Xiaomi74.8%
24
GLM-4.7Open-source
Zhipu AI73.8%
25
Grok 4Self-reported 72-75%
xAI73.5%
26
Qwen3.6-35B-A3BNew · MoE · Open
Alibaba73.4%
27
Claude Haiku 4.5
Anthropic73.3%
28
DeepSeek V3.2Open-source
DeepSeek73.0%
29
Claude Sonnet 4Scaffold-dependent*
Anthropic72.7%
30
Qwen3-Coder-Next3B active params · Open
Alibaba70.6%
31
Gemini 2.5 Pro
Google63.8%
32
GPT-OSS-120BOpen-source
OpenAI62.4%
33
Grok Code Fast
xAI57.6%
34
GPT-4.1
OpenAI54.6%
35
o3
OpenAI49.8%

Quelle: swebench.com

Scores sind selbst gemeldet von Modell-Anbietern, sofern nicht anders angegeben. Scaffold-/Harness-Unterschiede beeinflussen die Ergebnisse.

4 Benchmarks·109 Modell-Einträge·Aktualisiert Mai 2026

SWE-Bench Verified Leaderboard: GPT-5.5 übernimmt Platz 1

GPT-5.5 von OpenAI übernimmt den neuen Platz 1 im SWE-Bench Verified mit 88,7% (OpenAI-Angabe, veröffentlicht 23. April 2026). Claude Opus 4.7 fällt auf Platz 2 mit 87,6% (16. April 2026, 1M-Kontext), GPT-5.3-Codex hält Platz 3 mit 85,0%. Unter 81% wird es eng: Opus 4.5 (80,9%), Opus 4.6 (80,8%), DeepSeek V4 Pro Max (80,6%, neues Open-Weight 1,6T MoE) und Gemini 3.1 Pro (80,6%) gleichauf. Kimi K2.6 (80,2%, neues Open-Weight) gleichauf mit MiniMax M2.5. Weitere April-Neuzugänge: Mistral Medium 3.5 (77,6%), Qwen3.6-27B (77,2%), Muse Spark (77,4%).

Terminal-Bench 2.0: Codex CLI + GPT-5.5 übernimmt die Spitze

Codex CLI + GPT-5.5 erreicht 82,0% im Terminal-Bench 2.0 (23. April 2026), neuer alleiniger Spitzenreiter. ForgeCode + GPT-5.4 hält 81,8%. TongAgents + Gemini 3.1 Pro erreicht 80,2%. ForgeCode + Claude Opus 4.6 wurde im aktuellen tbench-Run auf 79,8% nach unten korrigiert. SageAgent + GPT-5.3-Codex und ForgeCode + Gemini 3.1 Pro liegen bei 78,4%. Factory.ais Droid + GPT-5.3-Codex folgt mit 77,3%. Anthropic meldet selbst Claude Opus 4.7 mit 69,4%, Einreichung auf tbench.ai steht noch aus.

SWE-Bench Pro: Claude Opus 4.7 führt mit 64,3%

Im SWE-Bench Pro führt Claude Opus 4.7 mit 64,3% (Anthropic-Angabe, April 2026 Release). GPT-5.4 (xHigh) erreicht 59,1% auf Scales SEAL mini-swe-agent-Scaffold. GPT-5.3-Codex (Agent-System) erreicht 56,8%, GPT-5.2-Codex 56,4% und Muse Spark von Meta 55,0%. Claude Opus 4.6 kommt auf 51,9% mit dem SEAL mini-swe-agent-Harness. Scales vollständig standardisiertes SEAL-Board setzt Claude Opus 4.5 mit 45,9% an die Spitze.

Open-Source-Modelle im SWE-Bench 2026

MiniMax M2.5 führt die Open-Weight-Modelle im SWE-Bench Verified mit 80,2% an und bleibt in den Top 10. MiMo-V2-Pro von Xiaomi erreicht 78,0% mit 1T Parametern. GLM-5 von Zhipu AI folgt mit 77,8% bei 744 Mrd. Parametern auf Huawei-Chips. Kimi K2.5 von Moonshot AI erreicht 76,8%. GLM-4.7 kommt auf 73,8% (nach oben korrigiert gegenüber früheren Meldungen). DeepSeek V3.2 bei 73,0%, und Qwen3-Coder-Next erreicht 70,6% mit nur 3 Mrd. aktiven Parametern.

Bestes KI-Coding-Modell Mai 2026

Claude Opus 4.7 ist der klare Gesamtspitzenreiter im Mai 2026 — 87,6% im SWE-Bench Verified und 64,3% im SWE-Bench Pro, beide Platz 1. GPT-5.3-Codex folgt mit 85,0% im SWE-Bench Verified. Claude Sonnet 4.6 schlägt über seiner Gewichtsklasse mit 79,6% — immer noch nur 1,2 Punkte hinter Opus 4.6 und 5x günstiger.

Für Terminal- und DevOps-Workflows führen ForgeCode-Scaffolds mit Claude Opus 4.6 oder GPT-5.4 Terminal-Bench 2.0 mit 81,8% an. TongAgents + Gemini 3.1 Pro erreicht 80,2%. Im Multi-Language-Editing (Aider Polyglot) führt Claude Opus 4.5 mit 89,4% (Anthropic-Angabe), gefolgt von GPT-5 (high) mit 88,0%.

Budgetbewusst? DeepSeek V3.2-Exp liefert 74,2% im Aider Polyglot für $1,30/Run — 22x günstiger als GPT-5. Qwen3-Coder-Next erreicht 70,6% im SWE-Bench Verified bei nur 3 Mrd. aktiven Parametern — das effizienteste Modell in den Top 25.

Häufig gestellte Fragen

GPT-5.5 von OpenAI übernimmt den neuen Platz 1 mit 88,7% (OpenAI-Angabe, veröffentlicht 23. April 2026). Claude Opus 4.7 von Anthropic fällt auf Platz 2 mit 87,6% (16. April 2026, 1M-Kontext). GPT-5.3-Codex folgt mit 85,0%. Danach: Claude Opus 4.5 mit 80,9%, Claude Opus 4.6 mit 80,8%, DeepSeek V4 Pro Max mit 80,6% (neues Open-Weight 1,6T MoE), Gemini 3.1 Pro mit 80,6%, Kimi K2.6 mit 80,2% (neues Open-Weight), MiniMax M2.5 mit 80,2% und GPT-5.2 mit 80,0%.

GPT-5.5 von OpenAI erreicht 88,7% im SWE-Bench Verified (OpenAI-Angabe, 23. April 2026) — neuer öffentlicher Spitzenreiter, 1,1 Punkte vor Claude Opus 4.7. Im Terminal-Bench 2.0 übernimmt Codex CLI + GPT-5.5 mit 82,0% Platz 1. SWE-Bench Pro und Aider Polyglot Scores sind noch nicht veröffentlicht.

Claude Opus 4.7 erreicht 87,6% im SWE-Bench Verified (jetzt Platz 2 hinter GPT-5.5 mit 88,7%), 64,3% im SWE-Bench Pro (weiter Platz 1, Anthropic-Angabe) und laut Anthropic 69,4% im Terminal-Bench 2.0 (noch nicht auf tbench.ai). Veröffentlicht am 16. April 2026 mit 1M-Token-Kontext.

Claude Opus 4.6 erreicht 80,8% im SWE-Bench Verified und 51,9% im SWE-Bench Pro (Scale SEAL mini-swe-agent). Im Terminal-Bench 2.0 kommt Opus 4.6 auf 74,7% (Terminus-KIRA-Scaffold), und ForgeCode + Opus 4.6 führt das Board mit 81,8% an. Veröffentlicht Januar 2026.

Gemini 3.1 Pro von Google DeepMind erreicht 80,6% im SWE-Bench Verified Stand Februar 2026. Im Terminal-Bench 2.0 kommt TongAgents + Gemini 3.1 Pro auf 80,2% und ForgeCode + Gemini 3.1 Pro auf 78,4%. Im SWE-Bench Pro (Scale SEAL mini-swe-agent) erreicht es 46,1%.

xAI meldet 72-75% für Grok 4 im SWE-Bench Verified. Unabhängige Tests von vals.ai mit SWE-Agent-Scaffold zeigen 58,6% — eine deutliche Lücke, die den Einfluss der Scaffold-Wahl auf die Ergebnisse verdeutlicht. Im Aider Polyglot erreicht Grok 4 79,6%. xAI hat inzwischen Grok 4.20 als neues Flaggschiff veröffentlicht.

Claude Sonnet 4.6 erreicht 79,6% im SWE-Bench Verified, nur 1,2 Punkte hinter Opus 4.6 und 2,4 Punkte vor Sonnet 4.5. Mit $3/$15 pro Million Tokens — fünfmal günstiger als Opus — bietet es starke Kosteneffizienz für Coding-Aufgaben.

Claude Opus 4.7 führt SWE-Bench Pro mit 64,3% an (Anthropic-Angabe, April 2026 Release). GPT-5.4 (xHigh) erreicht 59,1% auf Scale SEAL mini-swe-agent. Agent-System-Scores: GPT-5.3-Codex CLI mit 56,8%, GPT-5.2-Codex mit 56,4%, GPT-5.2 mit 55,6%. Muse Spark von Meta kommt auf 55,0%. Auf Scale SEAL mit standardisiertem Scaffolding führt Claude Opus 4.5 mit 45,9%.

GPT-5.5 führt SWE-Bench Verified mit 88,7% (OpenAI-Angabe) im Mai 2026 an. Claude Opus 4.7 folgt mit 87,6% und führt weiter SWE-Bench Pro mit 64,3% (Anthropic-Angabe). GPT-5.3-Codex erreicht 85,0% im SWE-Bench Verified. Im Terminal-Bench 2.0 übernimmt Codex CLI + GPT-5.5 mit 82,0% Platz 1, ForgeCode + GPT-5.4 folgt mit 81,8%. Im Aider Polyglot führt Claude Opus 4.5 mit 89,4% (Anthropic-Angabe). DeepSeek V3.2-Exp bietet die beste Kosteneffizienz mit $1,30 pro Run.

Der Top-Score stieg von ca. 65% Anfang 2025 auf 88,7% im Mai 2026 mit GPT-5.5 (OpenAI, 23. April 2026). Claude Opus 4.7 ist Platz 2 mit 87,6%, GPT-5.3-Codex Platz 3 mit 85,0%. Gemini 3.1 Pro und DeepSeek V4 Pro Max gleichauf bei 80,6%. April-2026-Neuzugänge: GPT-5.5 (88,7%), Claude Opus 4.7 (87,6%), DeepSeek V4 Pro Max (80,6%, Open-Weight), Kimi K2.6 (80,2%, Open-Weight), Qwen3.6 Plus (78,8%), Mistral Medium 3.5 (77,6%), Muse Spark (77,4%), Qwen3.6-27B (77,2%). Agent-Frameworks übertreffen reine Modell-Scores um 5-15 Punkte.

Dieses Leaderboard wird monatlich mit den neuesten Benchmark-Scores aus SWE-Bench Verified, Terminal-Bench 2.0, Aider Polyglot und SWE-Bench Pro aktualisiert. Scores sind selbst gemeldet von Modell-Anbietern, sofern nicht anders angegeben. Scaffold-/Harness-Unterschiede beeinflussen die Ergebnisse.

Für reine Code-Generierung führt GPT-5.5 mit 88,7% im SWE-Bench Verified; Claude Opus 4.7 führt SWE-Bench Pro mit 64,3%. Für Terminal- und DevOps-Workflows übernimmt Codex CLI + GPT-5.5 Terminal-Bench 2.0 mit 82,0% Platz 1. Für Multi-Language-Editing führt Claude Opus 4.5 Aider Polyglot mit 89,4%. Für Kosteneffizienz liefert DeepSeek V3.2-Exp 74,2% im Aider Polyglot für nur $1,30 pro Run.

DeepSeek V4 Pro Max führt die Open-Weight-Modelle im SWE-Bench Verified mit 80,6% an (1,6T MoE, April 2026), gleichauf mit Closed-Source Gemini 3.1 Pro. Kimi K2.6 folgt mit 80,2% (April 2026, 1T MoE), gleichauf mit MiniMax M2.5. MiMo-V2-Pro von Xiaomi: 78,0% (1T). GLM-5 von Zhipu AI: 77,8% (744B). Mistral Medium 3.5: 77,6% (April 2026). Qwen3.6-27B: 77,2% (April 2026, dense Apache 2.0). Kimi K2.5: 76,8%. GLM-4.7: 73,8%. DeepSeek V3.2: 73,0%. Qwen3-Coder-Next: 70,6% mit nur 3 Mrd. aktiven Parametern.

Codex CLI + GPT-5.5 ist neuer alleiniger Spitzenreiter mit 82,0% (23. April 2026, OpenAI). ForgeCode + GPT-5.4 hält 81,8%. TongAgents + Gemini 3.1 Pro erreicht 80,2%. ForgeCode + Claude Opus 4.6 wurde im aktuellen tbench-Run auf 79,8% korrigiert. SageAgent + GPT-5.3-Codex und ForgeCode + Gemini 3.1 Pro kommen beide auf 78,4%. Droid + GPT-5.3-Codex von Factory.ai erreicht 77,3%. Anthropic meldet Claude Opus 4.7 bei 69,4% (noch nicht auf dem öffentlichen tbench.ai-Board).

Zur vollständigen Analyse →

Kontakt

Lass uns vernetzen.

Wenn du an etwas Ernstem im Bereich agentischer Infrastruktur arbeitest — Tool-Design, Harness-Engineering, Orchestrierungs-Loops — schreib mir.