Marco Patzelt
Back to Overview
6. Februar 2026
Aktualisiert: 7. Februar 2026

Beste KI fürs Coding 2026: 5 Benchmarks, echte Daten

Opus 4.6 erreicht 80.8% SWE-Bench, GPT-5.3 führt Terminal-Bench. Fünf Leaderboards analysiert, echte Preise verglichen und was wirklich zählt im Alltag.

SWE-Bench Leaderboard Februar 2026 — Live-Scores für SWE-Bench Verified, Terminal-Bench 2.0, Aider Polyglot & SWE-Bench Pro


Drei große Coding-Modell-Releases in sieben Tagen. Claude Opus 4.6 gestern. GPT-5.3 Codex zwanzig Minuten später. Qwen3-Coder-Next vor drei Tagen. Jeder behauptet, sein Modell sei das "beste fürs Coden". Niemand sagt dir, welches Leaderboard sie zitieren – oder warum die Zahlen über fünf verschiedene SWE-bench-Rankings hinweg nicht zusammenpassen. Ich habe mich durch alle gewühlt. Hier ist, was die Benchmarks tatsächlich sagen, was sie verschweigen und welches Modell dein Geld wert ist – abhängig davon, was du tatsächlich baust.

5. Februar 2026: Der 20-Minuten-Krieg

Anthropic droppte Claude Opus 4.6 gegen 18:40 Uhr. Zwanzig Minuten später feuerte OpenAI mit GPT-5.3 Codex zurück. Kein Zufall – ein kalkulierter Power-Move. Hier ist die Scorecard von Tag eins:

BenchmarkClaude Opus 4.6GPT-5.3 CodexGewinner
SWE-bench Verified80.8%~56.8%*Opus 4.6
Terminal-Bench 2.065.4%77.3%GPT-5.3
OSWorld (Computer Use)72.7%Opus 4.6
ARC-AGI-268.8%Opus 4.6

*Andere SWE-bench Version für GPT-5.3.

Unterschiedliche Benchmarks, unterschiedliche Gewinner. Opus 4.6 dominiert beim Bug-Fixing. GPT-5.3 Codex zerstört alles im Bereich Terminal-basiertes agentisches Coden. Wie ein Hacker News-Kommentator es ausdrückte: "Die kürzeste Führung, weniger als 35 Minuten." Das Marketing keiner der beiden Firmen wird dir sagen, dass kein Modell universell das "beste" ist.

Claude Opus 4.6: Volle Analyse

Veröffentlicht am 5. Februar 2026. Gleicher Preis wie Opus 4.5: $5/$25 pro Million Input/Output Tokens. Aber die Upgrades gehen weit über rohes SWE-bench hinaus.

Opus 4.6 Benchmarks

BenchmarkOpus 4.6Opus 4.5Änderung
SWE-bench Verified80.8%80.9%-0.1%
Terminal-Bench 2.065.4%59.3%+6.1%
ARC-AGI-268.8%37.6%+31.2%
OSWorld72.7%66.3%+6.4%
BrowseComp84.0%67.8%+16.2%
Humanity's Last Exam40.0%30.8%+9.2%
BigLaw Bench90.2%Führend

SWE-bench Verified ist im Grunde flach – 80.8% vs 80.9%. Anthropic hat diesmal nicht für Bug-Fixing optimiert. Die Upgrades liegen überall sonst. ARC-AGI-2 hat sich fast verdoppelt: 68.8% von 37.6%. Das misst neuartiges Problemlösen – Aufgaben, die das Modell im Training noch nicht gesehen hat. Der größte Einzel-Benchmark-Sprung in einem Frontier-Modell-Update, den ich je gesehen habe. GPT-5.2 erreichte 54.2% und Gemini 3 Pro 45.1%.

Terminal-Bench 2.0 sprang von 59.3% auf 65.4%. Echte Terminal-Arbeit – Tests ausführen, Debuggen, Navigieren in komplexen Entwicklungsumgebungen. Opus 4.6 führt hier alle Frontier-Modelle an, außer GPT-5.3 Codex (77.3%, am selben Tag veröffentlicht).

Opus 4.6: 1M Token Context Window

Opus 4.5 hatte 200K. Opus 4.6 springt auf 1M (Beta). Das sind grob 750.000 Wörter. Aber Context-Window-Größe bedeutet nichts ohne Retrieval-Qualität.

MRCR v2 (Nadel-im-Heuhaufen über 1M Tokens):

  • Opus 4.6: 76.0%
  • Sonnet 4.5: 18.5%

Das ist keine Benchmark-Lücke. Das ist eine andere Fähigkeitsklasse. Sonnet 4.5 verliert Informationen in langen Kontexten. Opus 4.6 nutzt sie tatsächlich. Preis-Hinweis: Standard $5/$25 pro MTok gilt bis zu 200K Tokens. Über 200K: $10/$37.50. Das 1M-Fenster ist mächtig, aber teuer – plant entsprechend.

Claude Code Agent Teams

Das ist das Feature, auf das man achten muss.

export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1

Setze diese Umgebungsvariable und Claude Code spawnt mehrere Agenten, die parallel arbeiten. Eine Session agiert als Team-Lead, delegiert Aufgaben an Sub-Agenten und koordiniert Merges über separate Git Worktrees. Navigiert zwischen Sub-Agenten mit Shift+Hoch/Runter oder via tmux. Rakuten hat Agent Teams eingesetzt und ließ es autonom Arbeit über sechs Repositories verwalten und 13 Issues an einem einzigen Tag schließen. Das ist nicht "AI hilft dir schneller zu coden" – das ist "AI betreibt ein kleines Dev-Team."

Opus 4.6 vs Sonnet 5: Was ist mit Sonnet?

Die Leute suchen danach, also lasst mich direkt sein: Es gibt noch kein Sonnet 5. Der Fennec-Leak deutete auf claude-sonnet-5@20260203 in Vertex AI Error Logs hin, aber der 3. Februar kam und ging. Was Anthropic stattdessen lieferte, war Opus 4.6. Für die meisten Devs ist Sonnet 4.5 bei $3/$15 immer noch der Sweet Spot. Ihr zahlt 40% weniger für grob 93% der Coding-Leistung. Opus 4.6 rechtfertigt seinen Aufpreis, wenn ihr Agent Teams oder 1M Context braucht.

Qwen3-Coder-Next: Der Open-Source Disruptor

Veröffentlicht am 3. Februar 2026. Apache 2.0 Lizenz. Die Zahlen, die jeden API-abhängigen Entwickler aufhorchen lassen sollten:

Qwen3-Coder-Next SWE-Bench Scores

BenchmarkQwen3-Coder-NextGLM-4.7DeepSeek V3.2
SWE-bench Verified70.6%74.2%70.2%
SWE-bench Multilingual62.8%
SWE-bench Pro44.3%
Terminal-Bench 2.036.2%
SecCodeBench61.2%52.5% (Opus 4.5)

70.6% auf SWE-bench Verified mit 3B aktiven Parametern. DeepSeek V3.2 aktiviert 37B Params, um 70.2% zu erreichen. Das ist 12x mehr Compute für 0.4% weniger Leistung. Der SWE-bench Pro Score verdient Aufmerksamkeit: 44.3%. Frühere Pro-Evaluationen sahen Frontier Closed-Source Modelle bei 15-23% auf ähnlichen Enterprise-Grade-Tasks. Anderes Scaffold und Test-Set, aber Qwen3-Coder-Next ist wettbewerbsfähig mit Modellen, die $5-25 pro Million Tokens kosten.

Newsletter

Wöchentliche Insights zu AI-Architektur. Kein Spam.

Security Benchmark: Auf SecCodeBench erreicht Qwen3-Coder-Next 61.2% bei sicherer Code-Generierung. Claude Opus 4.5 erreicht 52.5%. Ein Open-Source-Modell schlägt das teuerste Closed-Source-Modell bei der Code-Sicherheit um 8.7 Prozentpunkte.

Architektur & Hardware

80B Gesamt-Parameter. Nur 3B aktiviert pro Token via ultra-sparse Mixture-of-Experts.

  • Hybrid Attention: Kombiniert Gated DeltaNet (lineare Attention, O(n)) mit traditioneller Attention.
  • Agentic Training: Trainiert durch 800.000 verifizierbare Coding-Tasks via MegaFlow. Live Container-Feedback während des Trainings.
  • Non-thinking Mode: Keine <think></think> Blöcke. Direkte Antwortgenerierung.

Hardware-Anforderungen (Lokal betreiben):

QuantizationSpeicher benötigtSpeedHardware
FP8 (native)~80GB~43 tok/sNVIDIA DGX Spark
Q8~85GBGutMac Studio M3 Ultra 192GB
Q4~46GBNutzbarMac Studio M3 Ultra, dual RTX 4090
CPU offload8GB VRAM + 32GB RAM~12 tok/sConsumer GPU + RAM

Die Q4-Variante mit ~46GB passt auf Hardware, die die meisten ernsthaften Devs bereits besitzen oder sich leisten können. Wenn du einen Mac Studio für lokale AI betreibst, ändert das die Rechnung. Für OpenClaw-User: Qwen3-Coder-Next funktioniert als Drop-In lokales Modell via Ollama. Null API-Kosten. Volle Privatsphäre.

Das Komplette SWE-bench Leaderboard (Februar 2026)

Fünf glaubwürdige Leaderboards. Fünf verschiedene Scaffolds. Fünf verschiedene Geschichten.

1. Selbst-Reported (Lab-Eigene Scaffolds)

Das sind die Marketing-Zahlen. Jedes Lab optimiert sein Scaffold für das eigene Modell.

  • Claude Opus 4.6: 80.8%
  • GPT-5.1 Codex Max: 77.9%
  • Gemini 3 Pro: 76.2%
  • Qwen3-Coder-Next: 70.6%

2. Standardisiert (vals.ai — Gleicher SWE-Agent für Alle)

Gleiches Scaffold für jedes Modell. Die Lücke schrumpft.

  • Gemini 3 Flash (12/25): 76.2% (Budget Tier)
  • GPT 5.2: 75.4%
  • Claude Opus 4.5: 74.6%

Gemini 3 Flash. Ein Modell der Flash-Klasse. #1 auf dem standardisierten Leaderboard für $0.15/$0.60 pro MTok. Das ist 33x günstiger als Claude Opus beim Input.

3. SWE-rebench (Monatlich frische Tasks)

Der Kontaminations-resistente Benchmark. Tasks aus echten GitHub-Repos, die nach dem Trainings-Cutoff erstellt wurden.

  • Gemini 3 Flash: 57.6%
  • Claude Sonnet 4.5: ~54% (Höchster Pass@5: 55.1%)
  • GLM-4.7: ~52%

Von 80% bei Verified runter auf ~55% bei frischen Tasks. Diese Lücke ist die Kontaminations-/Schwierigkeitsfrage, über die niemand sprechen will. Claude Sonnet 4.5 löste hier einzigartige Probleme, die kein anderes Modell schaffte.

4. SWE-bench Pro (Enterprise Reality Check)

1.865 Tasks über 41 professionelle Repos, inklusive private Codebases.

  • GPT-5: 23.3% (Öffentlich) / 14.9% (Privat)
  • Claude Opus 4.1: 23.1% (Öffentlich) / 17.8% (Privat)
  • Qwen3-Coder-Next: 44.3% (Anderes Scaffold)

Von 80% auf 23%. Das ist die Realitätslücke. Bei Code, den sie nie gesehen haben, kämpfen Frontier-Modelle.

Das Kontaminations-Problem

IBM-Forscher sagten es direkt – das Python SWE-bench Leaderboard ist "ziemlich gesättigt" mit "zunehmenden Beweisen, dass die neuesten Frontier-Modelle im Grunde kontaminiert sind." Der Beweis liegt in den Zahlen: 20+ Prozentpunkte Lücke zwischen Verified und frischen Tasks. SWE-bench Pros privates Codebase-Subset ist das Nächste, was wir an einer kontaminationsfreien Coding-Eval haben. Und dort erreicht das beste Modell ~17.8% auf privatem Code.

Der Echte Kosten-Check

ModellInput/MTokOutput/MTokSWE-benchBeste Für
Claude Opus 4.6$5$2580.8%Agent Teams, 1M Context
Claude Sonnet 4.5$3$15~75%Tägliches Coden, Value
GPT-5.3 CodexPremiumPremiumTerminal/CLI Workflows
Gemini 3 Flash~$0.15~$0.6076.2%Volumen, Budget, Speed
Qwen3-Coder-NextSelf-hostSelf-host70.6%Privatsphäre, lokal, null Kosten

Die Rechnung:

  • Gemini 3 Flash: 33x günstiger als Opus Input.
  • Claude Sonnet 4.5: 40% günstiger als Opus. Einzigartiges Problemlösen.
  • Qwen3-Coder-Next: Null Pro-Token-Kosten. Einmaliges Hardware-Investment.

Das Urteil

Es gibt keine einzelne "beste AI für Coding" im Februar 2026. Es gibt fünf Leaderboards, die fünf verschiedene Geschichten erzählen.

Für die meisten Entwickler: Claude Sonnet 4.5. Starke Leistung, vernünftiger Preis, löste einzigartige Probleme auf frischen Benchmarks, die kein anderes Modell schaffte.

Für agentische Coding-Teams: Claude Opus 4.6. Agent Teams (CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1) und 1M Context rechtfertigen den Aufpreis.

Für Terminal-lastige Workflows: GPT-5.3 Codex. 77.3% Terminal-Bench dominiert. Wenn du im CLI lebst, ist das dein Modell.

Für Budget/Volumen: Gemini 3 Flash. Führt das standardisierte Leaderboard an, während es 33x weniger kostet als Opus.

Für lokales/privates Coding: Qwen3-Coder-Next. 70.6% SWE-bench Verified mit 3B aktiven Parametern. Läuft auf einem Mac Studio.

Hört auf, einzelnen Benchmark-Zahlen in Marketing-Ankündigungen zu vertrauen. Schaut auf standardisierte Evals. Checkt SWE-bench Pro für die Realität. Die 5% an der Spitze irgendeines Leaderboards zählen weniger als die Frage, ob das Modell tatsächlich für euren Code funktioniert.

Newsletter

Wöchentliche Insights zu AI-Architektur

Kein Spam. Jederzeit abbestellbar.

Häufig gestellte Fragen

Hängt vom Workflow und Budget ab. Claude Opus 4.6 führt SWE-bench Verified mit 80.8% und bietet Agent Teams für paralleles Coding. GPT-5.3 Codex dominiert Terminal-Bench 2.0 mit 77.3%. Gemini 3 Flash führt standardisierte Evals mit 76.2% bei 33x weniger Kosten. Für lokales/privates Coding: Qwen3-Coder-Next mit 70.6% bei nur 3B aktiven Parametern, Apache 2.0.

Claude Opus 4.6 erreicht 80.8% im SWE-bench Verified, 65.4% im Terminal-Bench 2.0, 68.8% im ARC-AGI-2, 72.7% im OSWorld, 90.2% im BigLaw Bench und 76% im MRCR v2 bei 1M Kontext. Dazu 1M Token Context Window (Beta), 128K Max Output, Agent Teams und Context Compaction. Preis: $5/$25 pro MTok bis 200K, danach $10/$37.50.

Qwen3-Coder-Next erreicht 70.6% im SWE-bench Verified mit nur 3B aktiven von 80B Gesamt-Parametern via ultra-sparse MoE. Dazu 62.8% SWE-bench Multilingual, 44.3% SWE-bench Pro, 36.2% Terminal-Bench 2.0 und 61.2% SecCodeBench—schlägt Claude Opus 4.5 bei sicherer Code-Generierung um 8.7 Punkte. Apache 2.0, läuft lokal mit ~46GB Q4.

Setze die Umgebungsvariable CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 in Claude Code v2.1.32 oder neuer. Das startet mehrere Claude-Instanzen parallel über separate Git Worktrees. Ein Agent agiert als Team Lead, delegiert an Sub-Agenten. Navigation mit Shift+Hoch/Runter oder tmux. Am besten für read-heavy Arbeit wie Code Reviews und Dokumentation.

SWE-bench Verified ist praktisch identisch (80.8% vs 80.9%). Key Opus 4.6 Upgrades: Terminal-Bench 2.0 stieg auf 65.4% von 59.3%, ARC-AGI-2 verdoppelte sich fast auf 68.8% von 37.6%, Context Window wuchs auf 1M von 200K, Max Output auf 128K von 32K, plus Agent Teams und Context Compaction neu. Trade-off: einige User berichten reduzierte Schreibqualität. Gleicher Preis $5/$25 pro MTok.

Kein Sonnet 5 bisher. Der Fennec-Leak deutete auf claude-sonnet-5@20260203 in Vertex AI Logs, aber der 3. Februar verging ohne Release. Anthropic lieferte Opus 4.6 stattdessen. Vergleich Opus 4.6 ($5/$25) vs Sonnet 4.5 ($3/$15): Opus hat höhere Capability plus Agent Teams und 1M Context. Sonnet bietet grob 93% der Coding-Leistung bei 40% weniger Kosten—für die meisten Devs der Sweet Spot.

Q4-Quantisierung braucht etwa 46GB Unified Memory oder VRAM—passt auf Mac Studio M3 Ultra oder dual RTX 4090. Q8 braucht etwa 85GB. CPU Offload mit 8GB VRAM plus 32GB System-RAM bei grob 12 Tokens/Sekunde. Unterstützt: SGLang, vLLM, llama.cpp, Ollama und LMStudio, alle mit OpenAI-kompatiblen API-Endpoints. Funktioniert als Drop-In für OpenClaw.

Zunehmende Hinweise sagen: teilweise ja. IBM-Forscher merkten an, Modelle könnten Benchmark-Daten im Training gesehen haben. Top-Modelle erreichen 75-80% auf SWE-bench Verified, aber nur 55-58% auf SWE-rebench (monatlich frische Tasks) und 15-23% auf SWE-bench Pro mit privaten Codebases. Diese 20+ Punkte Lücke deutet auf Kontamination neben Schwierigkeitsunterschieden hin.

Lass uns
vernetzen.

Ich bin immer offen für spannende Diskussionen über Frontend-Architektur, Performance und moderne Web-Stacks.

Schreib mir
Schreib mir