SWE-Bench Verified Leaderboard Februar 2026
Aktuelle KI-Modell-Rankings und neueste Top-Scores aus SWE-Bench Verified, SWE-Bench Pro, Terminal-Bench 2.0 & Aider Polyglot — aktualisiert Februar 2026.
Quelle: swebench.com ↗
Scores sind selbst gemeldet von Modell-Anbietern, sofern nicht anders angegeben. Scaffold-/Harness-Unterschiede beeinflussen die Ergebnisse.
SWE-Bench Verified Leaderboard: Top-Modelle Februar 2026
Der aktuelle Leader im SWE-Bench Verified im Februar 2026 ist Claude Opus 4.5 mit 80,9%, gefolgt von Claude Opus 4.6 mit 80,8% und GPT-5.2 mit 80,0%. Grok 4 von xAI meldet 72-75%. Die Tabelle oben zeigt alle 20 Modelle mit ihren neuesten Top-Scores und Rankings.
SWE-Bench Pro Leaderboard: GPT-5.3-Codex führt
Im SWE-Bench Pro führt GPT-5.3-Codex mit 56,8%, gefolgt von GPT-5.2-Codex mit 56,4% und GPT-5.2 mit 55,6%. Scores variieren stark je nach Scaffold — Scale AIs initiale SWE-Agent-Ergebnisse zeigten ~23% für Top-Modelle, neuere Scaffolds erreichen 45%+.
Terminal-Bench 2.0 Leaderboard: Top-Scores Februar 2026
Codex CLI (GPT-5) führt Terminal-Bench 2.0 mit 77,3% an, gefolgt von GPT-5.3-Codex mit 75,1%. Droid mit Claude Opus 4.6 erreicht 69,9%. Anthropic meldet 65,4% für Opus 4.6 und 59,8% für Opus 4.5. Claude Code kommt auf 58,0% als separates Scaffold.
Open-Source-Modelle im SWE-Bench 2026
DeepSeek V3.2 führt die Open-Source-Modelle im SWE-Bench Verified mit 73,0% an. Qwen3-Coder-Next folgt mit 70,6% bei nur 3 Mrd. aktiven Parametern. Kimi K2 von Moonshot AI erreicht 65,8%, GLM-4.7 von Zhipu AI ~60% und OpenAIs GPT-OSS-120B 62,4%. Open-Source schließt schnell zu proprietären Frontier-Modellen auf.
Bestes KI-Coding-Modell Februar 2026
Das beste Modell zum Coden hängt vom Workflow ab. Claude Opus 4.5 ist das beste Modell im SWE-Bench Verified für Python-lastige Repository-Aufgaben mit 80,9%, gefolgt von Opus 4.6 mit 80,8% und GPT-5.2 mit 80,0%. Grok 4 von xAI erreicht 79,6% im Aider Polyglot.
Für Terminal- und DevOps-Workflows führt GPT-5.3-Codex Terminal-Bench 2.0 mit 75,1% an, wobei Codex CLI mit Agent-Scaffolding auf 77,3% kommt. Droid mit Opus 4.6 erreicht 69,9% im selben Benchmark — nützlich, wenn man im Anthropic-Ökosystem bleiben will.
Budgetbewusst? DeepSeek V3.2-Exp liefert 74,2% im Aider Polyglot für $1,30/Run — 22x günstiger als GPT-5. Und Qwen3-Coder-Next schlägt mit 70,6% im SWE-Bench Verified bei nur 3 Mrd. aktiven Parametern weit über seiner Gewichtsklasse — das effizienteste Modell in den Top 10.
Häufig gestellte Fragen
Claude Opus 4.5 von Anthropic hält den höchsten selbst gemeldeten SWE-Bench Verified Score mit 80,9%, dicht gefolgt von Claude Opus 4.6 mit 80,8% und GPT-5.2 mit 80,0%. Gemini 3 Flash erreicht 78,0%, Claude Sonnet 4.5 kommt auf 77,2% und Gemini 3 Pro auf 76,2%. Grok 4 von xAI meldet 72-75%.
Claude Opus 4.6 erreicht 80,8% im SWE-Bench Verified (knapp hinter Opus 4.5 mit 80,9%) Stand Februar 2026. Anthropic meldet 65,4% im Terminal-Bench 2.0, und mit dem Droid-Agent-Framework erreicht es 69,9%.
xAI meldet 72-75% für Grok 4 im SWE-Bench Verified. Unabhängige Tests von vals.ai mit SWE-Agent-Scaffold zeigen 58,6% — eine deutliche Lücke, die den Einfluss der Scaffold-Wahl auf die Ergebnisse verdeutlicht. Im Aider Polyglot erreicht Grok 4 79,6%.
Qwen3-Coder-Next von Alibaba erreicht 70,6% im SWE-Bench Verified mit nur 3 Milliarden aktiven Parametern. Im SWE-Bench Pro kommt es auf 44,3% und im Terminal-Bench 2.0 auf 36,2%.
GPT-5.3-Codex von OpenAI führt SWE-Bench Pro mit 56,8% an, dicht gefolgt von GPT-5.2-Codex mit 56,4% und GPT-5.2 mit 55,6%. Hinweis: SWE-Bench Pro Scores variieren stark je nach Scaffold — Scale AIs initiale SWE-Agent-Ergebnisse zeigten ~23% für Top-Modelle, neuere Scaffolds erreichen 45%+.
Das hängt vom Anwendungsfall ab. Claude Opus 4.5 führt SWE-Bench Verified (80,9%) für Python-lastige Aufgaben an. GPT-5.3-Codex führt Terminal-Bench 2.0 (75,1%) und SWE-Bench Pro (56,8%) für agentische Workflows an. Grok 4 erreicht 79,6% im Aider Polyglot. DeepSeek V3.2-Exp bietet die beste Kosteneffizienz mit $1,30 pro Run.
Der Top-Score stieg von ca. 65% Anfang 2025 auf 80,9% im Februar 2026. Anthropic hält Platz 1 und 2. GPT-5.2 stieg auf 80,0%. xAI trat mit Grok 4 (72-75%) ein. Alibabas Qwen3-Coder-Next (70,6% bei nur 3 Mrd. Params) und Moonshot AIs Kimi K2 (65,8%) kamen in die Top 15. Agent-Frameworks übertreffen reine Modell-Scores um 10-20 Punkte.
Dieses Leaderboard wird monatlich mit den neuesten Benchmark-Scores aus SWE-Bench Verified, Terminal-Bench 2.0, Aider Polyglot und SWE-Bench Pro aktualisiert. Scores sind selbst gemeldet von Modell-Anbietern, sofern nicht anders angegeben. Scaffold-/Harness-Unterschiede beeinflussen die Ergebnisse.
Für reine Code-Generierung auf Python-Repos führt Claude Opus 4.5 mit 80,9% im SWE-Bench Verified. Für terminal-lastige DevOps-Workflows erreicht GPT-5.3-Codex 75,1% im Terminal-Bench 2.0. Für Kosteneffizienz liefert DeepSeek V3.2-Exp 74,2% im Aider Polyglot für nur $1,30 pro Run — 22x günstiger als GPT-5.
DeepSeek V3.2 führt die Open-Source-Modelle im SWE-Bench Verified mit 73,0% an. Qwen3-Coder-Next folgt mit 70,6% bei nur 3 Mrd. aktiven Parametern. Kimi K2 von Moonshot AI erreicht 65,8% und GLM-4.7 von Zhipu AI ~60%. Im Aider Polyglot erreicht DeepSeek V3.2-Exp 74,2% für nur $1,30 pro Run.
Codex CLI (GPT-5) führt Terminal-Bench 2.0 mit 77,3% an — ein agent-optimiertes Setup. GPT-5.3-Codex erreicht 75,1%. Droid mit Claude Opus 4.6 kommt auf 69,9%. Anthropic meldet 65,4% für Opus 4.6 und 59,8% für Opus 4.5. GPT-5.2 erreicht 62,2%.
Lass uns
vernetzen.
Ich bin immer offen für spannende Diskussionen über Frontend-Architektur, Performance und moderne Web-Stacks.