SWE-Bench Verified Leaderboard März 2026
Aktuelle KI-Modell-Rankings und neueste Top-Scores aus SWE-Bench Verified, SWE-Bench Pro, Terminal-Bench 2.0 & Aider Polyglot — aktualisiert März 2026.
Quelle: swebench.com ↗
Scores sind selbst gemeldet von Modell-Anbietern, sofern nicht anders angegeben. Scaffold-/Harness-Unterschiede beeinflussen die Ergebnisse.
SWE-Bench Verified Leaderboard: Top-Modelle März 2026
Der aktuelle Leader im SWE-Bench Verified im März 2026 ist Claude Opus 4.5 mit 80,9%, gefolgt von Claude Opus 4.6 mit 80,8%, Gemini 3.1 Pro mit 80,6%, MiniMax M2.5 mit 80,2% und GPT-5.2 mit 80,0%. Claude Sonnet 4.6 erreicht 79,6% — ein Mid-Tier-Modell fast auf Flagship-Niveau. Die Tabelle oben zeigt alle 23 Modelle mit ihren neuesten Top-Scores und Rankings.
Terminal-Bench 2.0 Leaderboard: Gemini 3.1 Pro übernimmt Platz 1
Gemini 3.1 Pro führt nun Terminal-Bench 2.0 mit 78,4% an und überholt Codex CLI (GPT-5) mit 77,3%. Claude Opus 4.6 sprang auf 74,7% (von 65,4% im Januar). Droid mit Opus 4.6 erreicht 69,9%. Claude Code kommt auf 58,0% als separates Scaffold.
SWE-Bench Pro Leaderboard: GPT-5.3-Codex führt
Im SWE-Bench Pro führt GPT-5.3-Codex mit 56,8%, gefolgt von GPT-5.2-Codex mit 56,4% und GPT-5.2 mit 55,6%. Scores variieren stark je nach Scaffold — Scale AIs SEAL-Leaderboard mit standardisiertem Scaffolding zeigt Claude Opus 4.5 an der Spitze mit 45,9%.
Open-Source-Modelle im SWE-Bench 2026
MiniMax M2.5 führt die Open-Weight-Modelle im SWE-Bench Verified mit 80,2% an und belegt Platz 4 insgesamt. GLM-5 von Zhipu AI folgt mit 77,8% bei 744 Mrd. Parametern auf Huawei-Chips. Kimi K2.5 von Moonshot AI erreicht 76,8%. DeepSeek V3.2 kommt auf 73,0% und Qwen3-Coder-Next auf 70,6% bei nur 3 Mrd. aktiven Parametern. Open-Source schließt schnell zu proprietären Frontier-Modellen auf.
Bestes KI-Coding-Modell März 2026
Das beste Modell zum Coden hängt vom Workflow ab. Claude Opus 4.5 ist das beste Modell im SWE-Bench Verified für Python-lastige Repository-Aufgaben mit 80,9%, gefolgt von Opus 4.6 mit 80,8% und Gemini 3.1 Pro mit 80,6%. Claude Sonnet 4.6 schlägt über seiner Gewichtsklasse mit 79,6% — nur 1,2 Punkte hinter Opus und 5x günstiger. Grok 4 von xAI erreicht 79,6% im Aider Polyglot.
Für Terminal- und DevOps-Workflows führt Gemini 3.1 Pro nun Terminal-Bench 2.0 mit 78,4% an und überholt GPT-5.3-Codex mit 77,3%. Claude Opus 4.6 sprang auf 74,7% im selben Benchmark.
Budgetbewusst? DeepSeek V3.2-Exp liefert 74,2% im Aider Polyglot für $1,30/Run — 22x günstiger als GPT-5. Und Qwen3-Coder-Next schlägt mit 70,6% im SWE-Bench Verified bei nur 3 Mrd. aktiven Parametern weit über seiner Gewichtsklasse — das effizienteste Modell in den Top 20.
Häufig gestellte Fragen
Claude Opus 4.5 von Anthropic hält den höchsten selbst gemeldeten SWE-Bench Verified Score mit 80,9%, dicht gefolgt von Claude Opus 4.6 mit 80,8%, Gemini 3.1 Pro mit 80,6%, MiniMax M2.5 mit 80,2% und GPT-5.2 mit 80,0%. Claude Sonnet 4.6 erreicht 79,6%, GLM-5 von Zhipu AI kommt auf 77,8%, Claude Sonnet 4.5 auf 77,2% und Kimi K2.5 auf 76,8%.
Claude Opus 4.6 erreicht 80,8% im SWE-Bench Verified (knapp hinter Opus 4.5 mit 80,9%) Stand März 2026. Im Terminal-Bench 2.0 kommt es auf 74,7%, und mit dem Droid-Agent-Framework erreicht es 69,9%.
Gemini 3.1 Pro von Google DeepMind erreicht 80,6% im SWE-Bench Verified Stand Februar 2026 und belegt damit Platz 3 insgesamt. Es führt auch Terminal-Bench 2.0 mit 78,4% an und erzielt 77,1% im ARC-AGI-2. Veröffentlicht am 19. Februar 2026 zum gleichen Preis wie Gemini 3 Pro.
xAI meldet 72-75% für Grok 4 im SWE-Bench Verified. Unabhängige Tests von vals.ai mit SWE-Agent-Scaffold zeigen 58,6% — eine deutliche Lücke, die den Einfluss der Scaffold-Wahl auf die Ergebnisse verdeutlicht. Im Aider Polyglot erreicht Grok 4 79,6%.
Claude Sonnet 4.6 erreicht 79,6% im SWE-Bench Verified, nur 1,2 Punkte hinter Opus 4.6 und 2,4 Punkte vor Sonnet 4.5. Mit $3/$15 pro Million Tokens — fünfmal günstiger als Opus — bietet es starke Kosteneffizienz für Coding-Aufgaben.
GPT-5.3-Codex von OpenAI führt SWE-Bench Pro mit 56,8% an, dicht gefolgt von GPT-5.2-Codex mit 56,4% und GPT-5.2 mit 55,6%. Hinweis: SWE-Bench Pro Scores variieren stark je nach Scaffold — Scale AIs SEAL-Leaderboard mit standardisiertem Scaffolding zeigt Claude Opus 4.5 an der Spitze mit 45,9%.
Das hängt vom Anwendungsfall ab. Claude Opus 4.5 führt SWE-Bench Verified (80,9%) für Python-lastige Aufgaben an, mit Gemini 3.1 Pro knapp dahinter bei 80,6%. Gemini 3.1 Pro führt Terminal-Bench 2.0 (78,4%) für Terminal-Workflows an. GPT-5.3-Codex führt SWE-Bench Pro (56,8%) an. Grok 4 erreicht 79,6% im Aider Polyglot. DeepSeek V3.2-Exp bietet die beste Kosteneffizienz mit $1,30 pro Run.
Der Top-Score stieg von ca. 65% Anfang 2025 auf 80,9% im März 2026. Anthropic hält Platz 1 und 2. Gemini 3.1 Pro stieg auf 80,6% und belegt Platz 3. MiniMax M2.5 erreicht 80,2% als Open-Weight-Modell. GPT-5.2 liegt bei 80,0%. Claude Sonnet 4.6 erreicht 79,6% — ein Mid-Tier-Modell fast auf Flagship-Niveau. Drei chinesische Open-Source-Modelle sitzen in den Top 10. Agent-Frameworks übertreffen reine Modell-Scores um 10-20 Punkte.
Dieses Leaderboard wird monatlich mit den neuesten Benchmark-Scores aus SWE-Bench Verified, Terminal-Bench 2.0, Aider Polyglot und SWE-Bench Pro aktualisiert. Scores sind selbst gemeldet von Modell-Anbietern, sofern nicht anders angegeben. Scaffold-/Harness-Unterschiede beeinflussen die Ergebnisse.
Für reine Code-Generierung auf Python-Repos führt Claude Opus 4.5 mit 80,9% im SWE-Bench Verified. Für terminal-lastige DevOps-Workflows erreicht Gemini 3.1 Pro 78,4% im Terminal-Bench 2.0. Für Kosteneffizienz liefert DeepSeek V3.2-Exp 74,2% im Aider Polyglot für nur $1,30 pro Run — 22x günstiger als GPT-5.
MiniMax M2.5 führt die Open-Weight-Modelle im SWE-Bench Verified mit 80,2% an und belegt Platz 4 insgesamt. GLM-5 von Zhipu AI folgt mit 77,8% bei 744 Mrd. Parametern. Kimi K2.5 von Moonshot AI erreicht 76,8%. DeepSeek V3.2 kommt auf 73,0%, Qwen3-Coder-Next auf 70,6% bei nur 3 Mrd. aktiven Parametern. Im Aider Polyglot erreicht DeepSeek V3.2-Exp 74,2% für nur $1,30 pro Run.
Gemini 3.1 Pro führt Terminal-Bench 2.0 mit 78,4% an, Stand März 2026, und überholt damit GPT-5.3-Codex mit 77,3%. Claude Opus 4.6 kommt auf 74,7%. Droid mit Claude Opus 4.6 erreicht 69,9%. GPT-5.2 kommt auf 62,2%.
Lass uns
vernetzen.
Tagsüber baue ich Middleware, nachts autonome Agentensysteme. Wenn du an etwas Ernstem im Bereich agentischer Infrastruktur arbeitest, würde ich gerne davon hören.