Question 1

Was ist der höchste SWE-Bench Verified Score im Februar 2026?

Accepted Answer

Claude Opus 4.5 von Anthropic hält den höchsten selbst gemeldeten SWE-Bench Verified Score mit 80,9%, dicht gefolgt von Claude Opus 4.6 mit 80,8% und GPT-5.2 mit 80,0%. Gemini 3 Flash erreicht 78,0%, Claude Sonnet 4.5 kommt auf 77,2% und Gemini 3 Pro auf 76,2%. Grok 4 von xAI meldet 72-75%.

Question 2

Was ist der SWE-Bench Score von Claude Opus 4.6?

Accepted Answer

Claude Opus 4.6 erreicht 80,8% im SWE-Bench Verified (knapp hinter Opus 4.5 mit 80,9%) Stand Februar 2026. Anthropic meldet 65,4% im Terminal-Bench 2.0, und mit dem Droid-Agent-Framework erreicht es 69,9%.

Question 3

Was ist der SWE-Bench Score von Grok 4?

Accepted Answer

xAI meldet 72-75% für Grok 4 im SWE-Bench Verified. Unabhängige Tests von vals.ai mit SWE-Agent-Scaffold zeigen 58,6%. Im Aider Polyglot erreicht Grok 4 79,6%.

Question 4

Was ist der SWE-Bench Verified Score von Qwen3-Coder-Next?

Accepted Answer

Qwen3-Coder-Next von Alibaba erreicht 70,6% im SWE-Bench Verified mit nur 3 Milliarden aktiven Parametern. Im SWE-Bench Pro kommt es auf 44,3% und im Terminal-Bench 2.0 auf 36,2%.

Question 5

Welches Modell führt SWE-Bench Pro an?

Accepted Answer

GPT-5.3-Codex von OpenAI führt SWE-Bench Pro mit 56,8% an, dicht gefolgt von GPT-5.2-Codex mit 56,4% und GPT-5.2 mit 55,6%. Hinweis: Scores variieren stark je nach Scaffold.

Question 6

Was ist das beste KI-Modell zum Coden 2026?

Accepted Answer

Das hängt vom Anwendungsfall ab. Claude Opus 4.5 führt SWE-Bench Verified (80,9%) für Python-lastige Aufgaben an. GPT-5.3-Codex führt Terminal-Bench 2.0 (75,1%) und SWE-Bench Pro (56,8%) an. Grok 4 erreicht 79,6% im Aider Polyglot. DeepSeek V3.2-Exp bietet die beste Kosteneffizienz mit $1,30 pro Run.

Question 7

SWE-Bench Leaderboard 2026 vs 2025: Was hat sich verändert?

Accepted Answer

Der Top-Score stieg von ca. 65% Anfang 2025 auf 80,9% im Februar 2026. Anthropic hält Platz 1 und 2. GPT-5.2 stieg auf 80,0%. xAI trat mit Grok 4 (72-75%) ein. Alibabas Qwen3-Coder-Next (70,6%) und Moonshot AIs Kimi K2 (65,8%) kamen in die Top 15.

Question 8

Wie oft wird dieses SWE-Bench Leaderboard aktualisiert?

Accepted Answer

Dieses Leaderboard wird monatlich aktualisiert. Scores sind selbst gemeldet von Modell-Anbietern, sofern nicht anders angegeben. Scaffold-/Harness-Unterschiede beeinflussen die Ergebnisse.

Question 9

Welches KI-Modell ist am besten zum Coden?

Accepted Answer

Für reine Code-Generierung auf Python-Repos führt Claude Opus 4.5 mit 80,9% im SWE-Bench Verified. Für terminal-lastige DevOps-Workflows erreicht GPT-5.3-Codex 75,1% im Terminal-Bench 2.0. Für Kosteneffizienz liefert DeepSeek V3.2-Exp 74,2% im Aider Polyglot für nur $1,30 pro Run.

Question 10

Welches Open-Source-Modell hat den besten SWE-Bench Score 2026?

Accepted Answer

DeepSeek V3.2 führt die Open-Source-Modelle im SWE-Bench Verified mit 73,0% an. Qwen3-Coder-Next folgt mit 70,6%. Kimi K2 von Moonshot AI erreicht 65,8% und GLM-4.7 von Zhipu AI ~60%.

Question 11

Welches Modell führt Terminal-Bench 2.0 im Februar 2026 an?

Accepted Answer

Codex CLI (GPT-5) führt Terminal-Bench 2.0 mit 77,3% an. GPT-5.3-Codex erreicht 75,1%. Droid mit Claude Opus 4.6 kommt auf 69,9%. Anthropic meldet 65,4% für Opus 4.6 und 59,8% für Opus 4.5. GPT-5.2 erreicht 62,2%.

SWE-Bench Verified Leaderboard Februar 2026

SWE-Bench Verified Leaderboard: Top-Modelle Februar 2026

SWE-Bench Pro Leaderboard: GPT-5.3-Codex führt

Terminal-Bench 2.0 Leaderboard: Top-Scores Februar 2026

Open-Source-Modelle im SWE-Bench 2026

Bestes KI-Coding-Modell Februar 2026

Häufig gestellte Fragen

Lass uns
vernetzen.