Marco Patzelt

SWE-Bench Verified Leaderboard Februar 2026

Aktuelle KI-Modell-Rankings und neueste Top-Scores aus SWE-Bench Verified, SWE-Bench Pro, Terminal-Bench 2.0 & Aider Polyglot — aktualisiert Februar 2026.

Filter:
#ModellAnbieterScore
1
Claude Opus 4.5
Anthropic80.9%
2
Claude Opus 4.6
Anthropic80.8%
3
GPT-5.2
OpenAI80.0%
4
Gemini 3 Flash
Google78.0%
5
Claude Sonnet 4.5
Anthropic77.2%
6
Gemini 3 Pro
Google76.2%
7
GPT-5.1
OpenAI74.9%
8
Grok 4Self-reported 72-75%
xAI73.5%
9
Claude Haiku 4.5
Anthropic73.3%
10
DeepSeek V3.2Open-source
DeepSeek73.0%
11
Claude Sonnet 4Scaffold-dependent*
Anthropic72.7%
12
Qwen3-Coder-Next3B active params · Open
Alibaba70.6%
13
Kimi K2Open-source
Moonshot AI65.8%
14
Gemini 2.5 Pro
Google63.8%
15
GPT-OSS-120BOpen-source
OpenAI62.4%
16
GLM-4.7Open-source · approx.
Zhipu AI60.0%
17
Grok Code Fast
xAI57.6%
18
GPT-4.1
OpenAI54.6%
19
MiniMax M2.1Open-weight · approx.
MiniMax52.0%
20
o3
OpenAI49.8%

Quelle: swebench.com

Scores sind selbst gemeldet von Modell-Anbietern, sofern nicht anders angegeben. Scaffold-/Harness-Unterschiede beeinflussen die Ergebnisse.

4 Benchmarks·64 Modell-Einträge·Aktualisiert Februar 2026

SWE-Bench Verified Leaderboard: Top-Modelle Februar 2026

Der aktuelle Leader im SWE-Bench Verified im Februar 2026 ist Claude Opus 4.5 mit 80,9%, gefolgt von Claude Opus 4.6 mit 80,8% und GPT-5.2 mit 80,0%. Grok 4 von xAI meldet 72-75%. Die Tabelle oben zeigt alle 20 Modelle mit ihren neuesten Top-Scores und Rankings.

SWE-Bench Pro Leaderboard: GPT-5.3-Codex führt

Im SWE-Bench Pro führt GPT-5.3-Codex mit 56,8%, gefolgt von GPT-5.2-Codex mit 56,4% und GPT-5.2 mit 55,6%. Scores variieren stark je nach Scaffold — Scale AIs initiale SWE-Agent-Ergebnisse zeigten ~23% für Top-Modelle, neuere Scaffolds erreichen 45%+.

Terminal-Bench 2.0 Leaderboard: Top-Scores Februar 2026

Codex CLI (GPT-5) führt Terminal-Bench 2.0 mit 77,3% an, gefolgt von GPT-5.3-Codex mit 75,1%. Droid mit Claude Opus 4.6 erreicht 69,9%. Anthropic meldet 65,4% für Opus 4.6 und 59,8% für Opus 4.5. Claude Code kommt auf 58,0% als separates Scaffold.

Open-Source-Modelle im SWE-Bench 2026

DeepSeek V3.2 führt die Open-Source-Modelle im SWE-Bench Verified mit 73,0% an. Qwen3-Coder-Next folgt mit 70,6% bei nur 3 Mrd. aktiven Parametern. Kimi K2 von Moonshot AI erreicht 65,8%, GLM-4.7 von Zhipu AI ~60% und OpenAIs GPT-OSS-120B 62,4%. Open-Source schließt schnell zu proprietären Frontier-Modellen auf.

Bestes KI-Coding-Modell Februar 2026

Das beste Modell zum Coden hängt vom Workflow ab. Claude Opus 4.5 ist das beste Modell im SWE-Bench Verified für Python-lastige Repository-Aufgaben mit 80,9%, gefolgt von Opus 4.6 mit 80,8% und GPT-5.2 mit 80,0%. Grok 4 von xAI erreicht 79,6% im Aider Polyglot.

Für Terminal- und DevOps-Workflows führt GPT-5.3-Codex Terminal-Bench 2.0 mit 75,1% an, wobei Codex CLI mit Agent-Scaffolding auf 77,3% kommt. Droid mit Opus 4.6 erreicht 69,9% im selben Benchmark — nützlich, wenn man im Anthropic-Ökosystem bleiben will.

Budgetbewusst? DeepSeek V3.2-Exp liefert 74,2% im Aider Polyglot für $1,30/Run — 22x günstiger als GPT-5. Und Qwen3-Coder-Next schlägt mit 70,6% im SWE-Bench Verified bei nur 3 Mrd. aktiven Parametern weit über seiner Gewichtsklasse — das effizienteste Modell in den Top 10.

Häufig gestellte Fragen

Claude Opus 4.5 von Anthropic hält den höchsten selbst gemeldeten SWE-Bench Verified Score mit 80,9%, dicht gefolgt von Claude Opus 4.6 mit 80,8% und GPT-5.2 mit 80,0%. Gemini 3 Flash erreicht 78,0%, Claude Sonnet 4.5 kommt auf 77,2% und Gemini 3 Pro auf 76,2%. Grok 4 von xAI meldet 72-75%.

Claude Opus 4.6 erreicht 80,8% im SWE-Bench Verified (knapp hinter Opus 4.5 mit 80,9%) Stand Februar 2026. Anthropic meldet 65,4% im Terminal-Bench 2.0, und mit dem Droid-Agent-Framework erreicht es 69,9%.

xAI meldet 72-75% für Grok 4 im SWE-Bench Verified. Unabhängige Tests von vals.ai mit SWE-Agent-Scaffold zeigen 58,6% — eine deutliche Lücke, die den Einfluss der Scaffold-Wahl auf die Ergebnisse verdeutlicht. Im Aider Polyglot erreicht Grok 4 79,6%.

Qwen3-Coder-Next von Alibaba erreicht 70,6% im SWE-Bench Verified mit nur 3 Milliarden aktiven Parametern. Im SWE-Bench Pro kommt es auf 44,3% und im Terminal-Bench 2.0 auf 36,2%.

GPT-5.3-Codex von OpenAI führt SWE-Bench Pro mit 56,8% an, dicht gefolgt von GPT-5.2-Codex mit 56,4% und GPT-5.2 mit 55,6%. Hinweis: SWE-Bench Pro Scores variieren stark je nach Scaffold — Scale AIs initiale SWE-Agent-Ergebnisse zeigten ~23% für Top-Modelle, neuere Scaffolds erreichen 45%+.

Das hängt vom Anwendungsfall ab. Claude Opus 4.5 führt SWE-Bench Verified (80,9%) für Python-lastige Aufgaben an. GPT-5.3-Codex führt Terminal-Bench 2.0 (75,1%) und SWE-Bench Pro (56,8%) für agentische Workflows an. Grok 4 erreicht 79,6% im Aider Polyglot. DeepSeek V3.2-Exp bietet die beste Kosteneffizienz mit $1,30 pro Run.

Der Top-Score stieg von ca. 65% Anfang 2025 auf 80,9% im Februar 2026. Anthropic hält Platz 1 und 2. GPT-5.2 stieg auf 80,0%. xAI trat mit Grok 4 (72-75%) ein. Alibabas Qwen3-Coder-Next (70,6% bei nur 3 Mrd. Params) und Moonshot AIs Kimi K2 (65,8%) kamen in die Top 15. Agent-Frameworks übertreffen reine Modell-Scores um 10-20 Punkte.

Dieses Leaderboard wird monatlich mit den neuesten Benchmark-Scores aus SWE-Bench Verified, Terminal-Bench 2.0, Aider Polyglot und SWE-Bench Pro aktualisiert. Scores sind selbst gemeldet von Modell-Anbietern, sofern nicht anders angegeben. Scaffold-/Harness-Unterschiede beeinflussen die Ergebnisse.

Für reine Code-Generierung auf Python-Repos führt Claude Opus 4.5 mit 80,9% im SWE-Bench Verified. Für terminal-lastige DevOps-Workflows erreicht GPT-5.3-Codex 75,1% im Terminal-Bench 2.0. Für Kosteneffizienz liefert DeepSeek V3.2-Exp 74,2% im Aider Polyglot für nur $1,30 pro Run — 22x günstiger als GPT-5.

DeepSeek V3.2 führt die Open-Source-Modelle im SWE-Bench Verified mit 73,0% an. Qwen3-Coder-Next folgt mit 70,6% bei nur 3 Mrd. aktiven Parametern. Kimi K2 von Moonshot AI erreicht 65,8% und GLM-4.7 von Zhipu AI ~60%. Im Aider Polyglot erreicht DeepSeek V3.2-Exp 74,2% für nur $1,30 pro Run.

Codex CLI (GPT-5) führt Terminal-Bench 2.0 mit 77,3% an — ein agent-optimiertes Setup. GPT-5.3-Codex erreicht 75,1%. Droid mit Claude Opus 4.6 kommt auf 69,9%. Anthropic meldet 65,4% für Opus 4.6 und 59,8% für Opus 4.5. GPT-5.2 erreicht 62,2%.

Zur vollständigen Analyse →

Lass uns
vernetzen.

Ich bin immer offen für spannende Diskussionen über Frontend-Architektur, Performance und moderne Web-Stacks.

Schreib mir
Schreib mir