Drei große Coding-Modell-Releases in sieben Tagen. Claude Opus 4.6 gestern. GPT-5.3 Codex zwanzig Minuten später. Qwen3-Coder-Next vor drei Tagen. Jeder behauptet, sein Modell sei das "beste fürs Coden". Niemand sagt dir, welches Leaderboard sie zitieren – oder warum die Zahlen über fünf verschiedene SWE-bench-Rankings hinweg nicht zusammenpassen. Ich habe mich durch alle gewühlt. Hier ist, was die Benchmarks tatsächlich sagen, was sie verschweigen und welches Modell dein Geld wert ist – abhängig davon, was du tatsächlich baust.
5. Februar 2026: Der 20-Minuten-Krieg
Anthropic droppte Claude Opus 4.6 gegen 18:40 Uhr. Zwanzig Minuten später feuerte OpenAI mit GPT-5.3 Codex zurück. Kein Zufall – ein kalkulierter Power-Move. Hier ist die Scorecard von Tag eins:
| Benchmark | Claude Opus 4.6 | GPT-5.3 Codex | Gewinner |
|---|---|---|---|
| SWE-bench Verified | 80.8% | ~56.8%* | Opus 4.6 |
| Terminal-Bench 2.0 | 65.4% | 77.3% | GPT-5.3 |
| OSWorld (Computer Use) | 72.7% | — | Opus 4.6 |
| ARC-AGI-2 | 68.8% | — | Opus 4.6 |
*Andere SWE-bench Version für GPT-5.3.
Unterschiedliche Benchmarks, unterschiedliche Gewinner. Opus 4.6 dominiert beim Bug-Fixing. GPT-5.3 Codex zerstört alles im Bereich Terminal-basiertes agentisches Coden. Wie ein Hacker News-Kommentator es ausdrückte: "Die kürzeste Führung, weniger als 35 Minuten." Das Marketing keiner der beiden Firmen wird dir sagen, dass kein Modell universell das "beste" ist.
Claude Opus 4.6: Volle Analyse
Veröffentlicht am 5. Februar 2026. Gleicher Preis wie Opus 4.5: $5/$25 pro Million Input/Output Tokens. Aber die Upgrades gehen weit über rohes SWE-bench hinaus.
Opus 4.6 Benchmarks
| Benchmark | Opus 4.6 | Opus 4.5 | Änderung |
|---|---|---|---|
| SWE-bench Verified | 80.8% | 80.9% | -0.1% |
| Terminal-Bench 2.0 | 65.4% | 59.3% | +6.1% |
| ARC-AGI-2 | 68.8% | 37.6% | +31.2% |
| OSWorld | 72.7% | 66.3% | +6.4% |
| BrowseComp | 84.0% | 67.8% | +16.2% |
| Humanity's Last Exam | 40.0% | 30.8% | +9.2% |
| BigLaw Bench | 90.2% | — | Führend |
SWE-bench Verified ist im Grunde flach – 80.8% vs 80.9%. Anthropic hat diesmal nicht für Bug-Fixing optimiert. Die Upgrades liegen überall sonst. ARC-AGI-2 hat sich fast verdoppelt: 68.8% von 37.6%. Das misst neuartiges Problemlösen – Aufgaben, die das Modell im Training noch nicht gesehen hat. Der größte Einzel-Benchmark-Sprung in einem Frontier-Modell-Update, den ich je gesehen habe. GPT-5.2 erreichte 54.2% und Gemini 3 Pro 45.1%.
Terminal-Bench 2.0 sprang von 59.3% auf 65.4%. Echte Terminal-Arbeit – Tests ausführen, Debuggen, Navigieren in komplexen Entwicklungsumgebungen. Opus 4.6 führt hier alle Frontier-Modelle an, außer GPT-5.3 Codex (77.3%, am selben Tag veröffentlicht).
Opus 4.6: 1M Token Context Window
Opus 4.5 hatte 200K. Opus 4.6 springt auf 1M (Beta). Das sind grob 750.000 Wörter. Aber Context-Window-Größe bedeutet nichts ohne Retrieval-Qualität.
MRCR v2 (Nadel-im-Heuhaufen über 1M Tokens):
- Opus 4.6: 76.0%
- Sonnet 4.5: 18.5%
Das ist keine Benchmark-Lücke. Das ist eine andere Fähigkeitsklasse. Sonnet 4.5 verliert Informationen in langen Kontexten. Opus 4.6 nutzt sie tatsächlich. Preis-Hinweis: Standard $5/$25 pro MTok gilt bis zu 200K Tokens. Über 200K: $10/$37.50. Das 1M-Fenster ist mächtig, aber teuer – plant entsprechend.
Claude Code Agent Teams
Das ist das Feature, auf das man achten muss.
export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1
Setze diese Umgebungsvariable und Claude Code spawnt mehrere Agenten, die parallel arbeiten. Eine Session agiert als Team-Lead, delegiert Aufgaben an Sub-Agenten und koordiniert Merges über separate Git Worktrees. Navigiert zwischen Sub-Agenten mit Shift+Hoch/Runter oder via tmux. Rakuten hat Agent Teams eingesetzt und ließ es autonom Arbeit über sechs Repositories verwalten und 13 Issues an einem einzigen Tag schließen. Das ist nicht "AI hilft dir schneller zu coden" – das ist "AI betreibt ein kleines Dev-Team."
Opus 4.6 vs Sonnet 5: Was ist mit Sonnet?
Die Leute suchen danach, also lasst mich direkt sein: Es gibt noch kein Sonnet 5. Der Fennec-Leak deutete auf claude-sonnet-5@20260203 in Vertex AI Error Logs hin, aber der 3. Februar kam und ging. Was Anthropic stattdessen lieferte, war Opus 4.6. Für die meisten Devs ist Sonnet 4.5 bei $3/$15 immer noch der Sweet Spot. Ihr zahlt 40% weniger für grob 93% der Coding-Leistung. Opus 4.6 rechtfertigt seinen Aufpreis, wenn ihr Agent Teams oder 1M Context braucht.
Qwen3-Coder-Next: Der Open-Source Disruptor
Veröffentlicht am 3. Februar 2026. Apache 2.0 Lizenz. Die Zahlen, die jeden API-abhängigen Entwickler aufhorchen lassen sollten:
Qwen3-Coder-Next SWE-Bench Scores
| Benchmark | Qwen3-Coder-Next | GLM-4.7 | DeepSeek V3.2 |
|---|---|---|---|
| SWE-bench Verified | 70.6% | 74.2% | 70.2% |
| SWE-bench Multilingual | 62.8% | — | — |
| SWE-bench Pro | 44.3% | — | — |
| Terminal-Bench 2.0 | 36.2% | — | — |
| SecCodeBench | 61.2% | — | 52.5% (Opus 4.5) |
70.6% auf SWE-bench Verified mit 3B aktiven Parametern. DeepSeek V3.2 aktiviert 37B Params, um 70.2% zu erreichen. Das ist 12x mehr Compute für 0.4% weniger Leistung. Der SWE-bench Pro Score verdient Aufmerksamkeit: 44.3%. Frühere Pro-Evaluationen sahen Frontier Closed-Source Modelle bei 15-23% auf ähnlichen Enterprise-Grade-Tasks. Anderes Scaffold und Test-Set, aber Qwen3-Coder-Next ist wettbewerbsfähig mit Modellen, die $5-25 pro Million Tokens kosten.
Wöchentliche Insights zu AI-Architektur. Kein Spam.
Security Benchmark: Auf SecCodeBench erreicht Qwen3-Coder-Next 61.2% bei sicherer Code-Generierung. Claude Opus 4.5 erreicht 52.5%. Ein Open-Source-Modell schlägt das teuerste Closed-Source-Modell bei der Code-Sicherheit um 8.7 Prozentpunkte.
Architektur & Hardware
80B Gesamt-Parameter. Nur 3B aktiviert pro Token via ultra-sparse Mixture-of-Experts.
- Hybrid Attention: Kombiniert Gated DeltaNet (lineare Attention, O(n)) mit traditioneller Attention.
- Agentic Training: Trainiert durch 800.000 verifizierbare Coding-Tasks via MegaFlow. Live Container-Feedback während des Trainings.
- Non-thinking Mode: Keine
<think></think>Blöcke. Direkte Antwortgenerierung.
Hardware-Anforderungen (Lokal betreiben):
| Quantization | Speicher benötigt | Speed | Hardware |
|---|---|---|---|
| FP8 (native) | ~80GB | ~43 tok/s | NVIDIA DGX Spark |
| Q8 | ~85GB | Gut | Mac Studio M3 Ultra 192GB |
| Q4 | ~46GB | Nutzbar | Mac Studio M3 Ultra, dual RTX 4090 |
| CPU offload | 8GB VRAM + 32GB RAM | ~12 tok/s | Consumer GPU + RAM |
Die Q4-Variante mit ~46GB passt auf Hardware, die die meisten ernsthaften Devs bereits besitzen oder sich leisten können. Wenn du einen Mac Studio für lokale AI betreibst, ändert das die Rechnung. Für OpenClaw-User: Qwen3-Coder-Next funktioniert als Drop-In lokales Modell via Ollama. Null API-Kosten. Volle Privatsphäre.
Das Komplette SWE-bench Leaderboard (Februar 2026)
Fünf glaubwürdige Leaderboards. Fünf verschiedene Scaffolds. Fünf verschiedene Geschichten.
1. Selbst-Reported (Lab-Eigene Scaffolds)
Das sind die Marketing-Zahlen. Jedes Lab optimiert sein Scaffold für das eigene Modell.
- Claude Opus 4.6: 80.8%
- GPT-5.1 Codex Max: 77.9%
- Gemini 3 Pro: 76.2%
- Qwen3-Coder-Next: 70.6%
2. Standardisiert (vals.ai — Gleicher SWE-Agent für Alle)
Gleiches Scaffold für jedes Modell. Die Lücke schrumpft.
- Gemini 3 Flash (12/25): 76.2% (Budget Tier)
- GPT 5.2: 75.4%
- Claude Opus 4.5: 74.6%
Gemini 3 Flash. Ein Modell der Flash-Klasse. #1 auf dem standardisierten Leaderboard für $0.15/$0.60 pro MTok. Das ist 33x günstiger als Claude Opus beim Input.
3. SWE-rebench (Monatlich frische Tasks)
Der Kontaminations-resistente Benchmark. Tasks aus echten GitHub-Repos, die nach dem Trainings-Cutoff erstellt wurden.
- Gemini 3 Flash: 57.6%
- Claude Sonnet 4.5: ~54% (Höchster Pass@5: 55.1%)
- GLM-4.7: ~52%
Von 80% bei Verified runter auf ~55% bei frischen Tasks. Diese Lücke ist die Kontaminations-/Schwierigkeitsfrage, über die niemand sprechen will. Claude Sonnet 4.5 löste hier einzigartige Probleme, die kein anderes Modell schaffte.
4. SWE-bench Pro (Enterprise Reality Check)
1.865 Tasks über 41 professionelle Repos, inklusive private Codebases.
- GPT-5: 23.3% (Öffentlich) / 14.9% (Privat)
- Claude Opus 4.1: 23.1% (Öffentlich) / 17.8% (Privat)
- Qwen3-Coder-Next: 44.3% (Anderes Scaffold)
Von 80% auf 23%. Das ist die Realitätslücke. Bei Code, den sie nie gesehen haben, kämpfen Frontier-Modelle.
Das Kontaminations-Problem
IBM-Forscher sagten es direkt – das Python SWE-bench Leaderboard ist "ziemlich gesättigt" mit "zunehmenden Beweisen, dass die neuesten Frontier-Modelle im Grunde kontaminiert sind." Der Beweis liegt in den Zahlen: 20+ Prozentpunkte Lücke zwischen Verified und frischen Tasks. SWE-bench Pros privates Codebase-Subset ist das Nächste, was wir an einer kontaminationsfreien Coding-Eval haben. Und dort erreicht das beste Modell ~17.8% auf privatem Code.
Der Echte Kosten-Check
| Modell | Input/MTok | Output/MTok | SWE-bench | Beste Für |
|---|---|---|---|---|
| Claude Opus 4.6 | $5 | $25 | 80.8% | Agent Teams, 1M Context |
| Claude Sonnet 4.5 | $3 | $15 | ~75% | Tägliches Coden, Value |
| GPT-5.3 Codex | Premium | Premium | — | Terminal/CLI Workflows |
| Gemini 3 Flash | ~$0.15 | ~$0.60 | 76.2% | Volumen, Budget, Speed |
| Qwen3-Coder-Next | Self-host | Self-host | 70.6% | Privatsphäre, lokal, null Kosten |
Die Rechnung:
- Gemini 3 Flash: 33x günstiger als Opus Input.
- Claude Sonnet 4.5: 40% günstiger als Opus. Einzigartiges Problemlösen.
- Qwen3-Coder-Next: Null Pro-Token-Kosten. Einmaliges Hardware-Investment.
Das Urteil
Es gibt keine einzelne "beste AI für Coding" im Februar 2026. Es gibt fünf Leaderboards, die fünf verschiedene Geschichten erzählen.
Für die meisten Entwickler: Claude Sonnet 4.5. Starke Leistung, vernünftiger Preis, löste einzigartige Probleme auf frischen Benchmarks, die kein anderes Modell schaffte.
Für agentische Coding-Teams:
Claude Opus 4.6. Agent Teams (CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1) und 1M Context rechtfertigen den Aufpreis.
Für Terminal-lastige Workflows: GPT-5.3 Codex. 77.3% Terminal-Bench dominiert. Wenn du im CLI lebst, ist das dein Modell.
Für Budget/Volumen: Gemini 3 Flash. Führt das standardisierte Leaderboard an, während es 33x weniger kostet als Opus.
Für lokales/privates Coding: Qwen3-Coder-Next. 70.6% SWE-bench Verified mit 3B aktiven Parametern. Läuft auf einem Mac Studio.
Hört auf, einzelnen Benchmark-Zahlen in Marketing-Ankündigungen zu vertrauen. Schaut auf standardisierte Evals. Checkt SWE-bench Pro für die Realität. Die 5% an der Spitze irgendeines Leaderboards zählen weniger als die Frage, ob das Modell tatsächlich für euren Code funktioniert.