Marco Patzelt

SWE-Bench Verified Leaderboard März 2026

Aktuelle KI-Modell-Rankings und neueste Top-Scores aus SWE-Bench Verified, SWE-Bench Pro, Terminal-Bench 2.0 & Aider Polyglot — aktualisiert März 2026.

Filter:
#ModellAnbieterScore
1
Claude Opus 4.5
Anthropic80.9%
2
Claude Opus 4.6
Anthropic80.8%
3
Gemini 3.1 Pro
Google80.6%
4
MiniMax M2.5Open-weight
MiniMax80.2%
5
GPT-5.2
OpenAI80.0%
6
Claude Sonnet 4.6
Anthropic79.6%
7
Gemini 3 Flash
Google78.0%
8
GLM-5744B params · Open-source
Zhipu AI77.8%
9
Claude Sonnet 4.5
Anthropic77.2%
10
Kimi K2.5Open-source
Moonshot AI76.8%
11
Gemini 3 Pro
Google76.2%
12
GPT-5.1
OpenAI74.9%
13
Grok 4Self-reported 72-75%
xAI73.5%
14
Claude Haiku 4.5
Anthropic73.3%
15
DeepSeek V3.2Open-source
DeepSeek73.0%
16
Claude Sonnet 4Scaffold-dependent*
Anthropic72.7%
17
Qwen3-Coder-Next3B active params · Open
Alibaba70.6%
18
Gemini 2.5 Pro
Google63.8%
19
GPT-OSS-120BOpen-source
OpenAI62.4%
20
GLM-4.7Open-source · approx.
Zhipu AI60.0%
21
Grok Code Fast
xAI57.6%
22
GPT-4.1
OpenAI54.6%
23
o3
OpenAI49.8%

Quelle: swebench.com

Scores sind selbst gemeldet von Modell-Anbietern, sofern nicht anders angegeben. Scaffold-/Harness-Unterschiede beeinflussen die Ergebnisse.

4 Benchmarks·72 Modell-Einträge·Aktualisiert März 2026

SWE-Bench Verified Leaderboard: Top-Modelle März 2026

Der aktuelle Leader im SWE-Bench Verified im März 2026 ist Claude Opus 4.5 mit 80,9%, gefolgt von Claude Opus 4.6 mit 80,8%, Gemini 3.1 Pro mit 80,6%, MiniMax M2.5 mit 80,2% und GPT-5.2 mit 80,0%. Claude Sonnet 4.6 erreicht 79,6% — ein Mid-Tier-Modell fast auf Flagship-Niveau. Die Tabelle oben zeigt alle 23 Modelle mit ihren neuesten Top-Scores und Rankings.

Terminal-Bench 2.0 Leaderboard: Gemini 3.1 Pro übernimmt Platz 1

Gemini 3.1 Pro führt nun Terminal-Bench 2.0 mit 78,4% an und überholt Codex CLI (GPT-5) mit 77,3%. Claude Opus 4.6 sprang auf 74,7% (von 65,4% im Januar). Droid mit Opus 4.6 erreicht 69,9%. Claude Code kommt auf 58,0% als separates Scaffold.

SWE-Bench Pro Leaderboard: GPT-5.3-Codex führt

Im SWE-Bench Pro führt GPT-5.3-Codex mit 56,8%, gefolgt von GPT-5.2-Codex mit 56,4% und GPT-5.2 mit 55,6%. Scores variieren stark je nach Scaffold — Scale AIs SEAL-Leaderboard mit standardisiertem Scaffolding zeigt Claude Opus 4.5 an der Spitze mit 45,9%.

Open-Source-Modelle im SWE-Bench 2026

MiniMax M2.5 führt die Open-Weight-Modelle im SWE-Bench Verified mit 80,2% an und belegt Platz 4 insgesamt. GLM-5 von Zhipu AI folgt mit 77,8% bei 744 Mrd. Parametern auf Huawei-Chips. Kimi K2.5 von Moonshot AI erreicht 76,8%. DeepSeek V3.2 kommt auf 73,0% und Qwen3-Coder-Next auf 70,6% bei nur 3 Mrd. aktiven Parametern. Open-Source schließt schnell zu proprietären Frontier-Modellen auf.

Bestes KI-Coding-Modell März 2026

Das beste Modell zum Coden hängt vom Workflow ab. Claude Opus 4.5 ist das beste Modell im SWE-Bench Verified für Python-lastige Repository-Aufgaben mit 80,9%, gefolgt von Opus 4.6 mit 80,8% und Gemini 3.1 Pro mit 80,6%. Claude Sonnet 4.6 schlägt über seiner Gewichtsklasse mit 79,6% — nur 1,2 Punkte hinter Opus und 5x günstiger. Grok 4 von xAI erreicht 79,6% im Aider Polyglot.

Für Terminal- und DevOps-Workflows führt Gemini 3.1 Pro nun Terminal-Bench 2.0 mit 78,4% an und überholt GPT-5.3-Codex mit 77,3%. Claude Opus 4.6 sprang auf 74,7% im selben Benchmark.

Budgetbewusst? DeepSeek V3.2-Exp liefert 74,2% im Aider Polyglot für $1,30/Run — 22x günstiger als GPT-5. Und Qwen3-Coder-Next schlägt mit 70,6% im SWE-Bench Verified bei nur 3 Mrd. aktiven Parametern weit über seiner Gewichtsklasse — das effizienteste Modell in den Top 20.

Häufig gestellte Fragen

Claude Opus 4.5 von Anthropic hält den höchsten selbst gemeldeten SWE-Bench Verified Score mit 80,9%, dicht gefolgt von Claude Opus 4.6 mit 80,8%, Gemini 3.1 Pro mit 80,6%, MiniMax M2.5 mit 80,2% und GPT-5.2 mit 80,0%. Claude Sonnet 4.6 erreicht 79,6%, GLM-5 von Zhipu AI kommt auf 77,8%, Claude Sonnet 4.5 auf 77,2% und Kimi K2.5 auf 76,8%.

Claude Opus 4.6 erreicht 80,8% im SWE-Bench Verified (knapp hinter Opus 4.5 mit 80,9%) Stand März 2026. Im Terminal-Bench 2.0 kommt es auf 74,7%, und mit dem Droid-Agent-Framework erreicht es 69,9%.

Gemini 3.1 Pro von Google DeepMind erreicht 80,6% im SWE-Bench Verified Stand Februar 2026 und belegt damit Platz 3 insgesamt. Es führt auch Terminal-Bench 2.0 mit 78,4% an und erzielt 77,1% im ARC-AGI-2. Veröffentlicht am 19. Februar 2026 zum gleichen Preis wie Gemini 3 Pro.

xAI meldet 72-75% für Grok 4 im SWE-Bench Verified. Unabhängige Tests von vals.ai mit SWE-Agent-Scaffold zeigen 58,6% — eine deutliche Lücke, die den Einfluss der Scaffold-Wahl auf die Ergebnisse verdeutlicht. Im Aider Polyglot erreicht Grok 4 79,6%.

Claude Sonnet 4.6 erreicht 79,6% im SWE-Bench Verified, nur 1,2 Punkte hinter Opus 4.6 und 2,4 Punkte vor Sonnet 4.5. Mit $3/$15 pro Million Tokens — fünfmal günstiger als Opus — bietet es starke Kosteneffizienz für Coding-Aufgaben.

GPT-5.3-Codex von OpenAI führt SWE-Bench Pro mit 56,8% an, dicht gefolgt von GPT-5.2-Codex mit 56,4% und GPT-5.2 mit 55,6%. Hinweis: SWE-Bench Pro Scores variieren stark je nach Scaffold — Scale AIs SEAL-Leaderboard mit standardisiertem Scaffolding zeigt Claude Opus 4.5 an der Spitze mit 45,9%.

Das hängt vom Anwendungsfall ab. Claude Opus 4.5 führt SWE-Bench Verified (80,9%) für Python-lastige Aufgaben an, mit Gemini 3.1 Pro knapp dahinter bei 80,6%. Gemini 3.1 Pro führt Terminal-Bench 2.0 (78,4%) für Terminal-Workflows an. GPT-5.3-Codex führt SWE-Bench Pro (56,8%) an. Grok 4 erreicht 79,6% im Aider Polyglot. DeepSeek V3.2-Exp bietet die beste Kosteneffizienz mit $1,30 pro Run.

Der Top-Score stieg von ca. 65% Anfang 2025 auf 80,9% im März 2026. Anthropic hält Platz 1 und 2. Gemini 3.1 Pro stieg auf 80,6% und belegt Platz 3. MiniMax M2.5 erreicht 80,2% als Open-Weight-Modell. GPT-5.2 liegt bei 80,0%. Claude Sonnet 4.6 erreicht 79,6% — ein Mid-Tier-Modell fast auf Flagship-Niveau. Drei chinesische Open-Source-Modelle sitzen in den Top 10. Agent-Frameworks übertreffen reine Modell-Scores um 10-20 Punkte.

Dieses Leaderboard wird monatlich mit den neuesten Benchmark-Scores aus SWE-Bench Verified, Terminal-Bench 2.0, Aider Polyglot und SWE-Bench Pro aktualisiert. Scores sind selbst gemeldet von Modell-Anbietern, sofern nicht anders angegeben. Scaffold-/Harness-Unterschiede beeinflussen die Ergebnisse.

Für reine Code-Generierung auf Python-Repos führt Claude Opus 4.5 mit 80,9% im SWE-Bench Verified. Für terminal-lastige DevOps-Workflows erreicht Gemini 3.1 Pro 78,4% im Terminal-Bench 2.0. Für Kosteneffizienz liefert DeepSeek V3.2-Exp 74,2% im Aider Polyglot für nur $1,30 pro Run — 22x günstiger als GPT-5.

MiniMax M2.5 führt die Open-Weight-Modelle im SWE-Bench Verified mit 80,2% an und belegt Platz 4 insgesamt. GLM-5 von Zhipu AI folgt mit 77,8% bei 744 Mrd. Parametern. Kimi K2.5 von Moonshot AI erreicht 76,8%. DeepSeek V3.2 kommt auf 73,0%, Qwen3-Coder-Next auf 70,6% bei nur 3 Mrd. aktiven Parametern. Im Aider Polyglot erreicht DeepSeek V3.2-Exp 74,2% für nur $1,30 pro Run.

Gemini 3.1 Pro führt Terminal-Bench 2.0 mit 78,4% an, Stand März 2026, und überholt damit GPT-5.3-Codex mit 77,3%. Claude Opus 4.6 kommt auf 74,7%. Droid mit Claude Opus 4.6 erreicht 69,9%. GPT-5.2 kommt auf 62,2%.

Zur vollständigen Analyse →

Lass uns
vernetzen.

Tagsüber baue ich Middleware, nachts autonome Agentensysteme. Wenn du an etwas Ernstem im Bereich agentischer Infrastruktur arbeitest, würde ich gerne davon hören.

Schreib mir
Schreib mir