Marco Patzelt
Back to Overview
4. Februar 2026
Aktualisiert: 5. Februar 2026

Qwen3-Coder-Next: 70% SWE-Bench mit 3B aktiven Params—Local AI wird ernst

70% SWE-Bench lokal?! Qwen3-Coder-Next schlägt DeepSeek-V3.2 mit 3B aktiven Params. Privat, schnell & ohne API-Limits auf deinem Mac Mini Pro!

Die Benchmark Realität

Ein 80B Modell, das nur 3B Parameter pro Token aktiviert, hat gerade 70.6% auf SWE-Bench Verified erreicht. Das schlägt DeepSeek-V3.2 (671B Params), während es nur 10 Punkte hinter Claude Opus 4.5 liegt – und das auf Hardware, die man sich tatsächlich leisten kann.

Alibaba hat gestern (3. Feb 2026) Qwen3-Coder-Next veröffentlicht. Das ist nicht einfach nur ein weiteres Open-Source Release. Es ist das erste Mal, dass ein lokal ausführbares Modell die Lücke zu den proprietären Frontier-Systemen auf reale einstellige Prozentpunkte in echten Coding-Benchmarks schließt.

Warum das wichtig ist (Engineer Perspective)

Lass uns den Lärm mit Zahlen durchschneiden.

Die Benchmark Realität:

ModellParams AktivSWE-Bench VerifiedSWE-Bench Pro
Claude Opus 4.5Unbekannt (Closed)80.9%-
GLM-4.7358B74.2%40.6%
Qwen3-Coder-Next3B70.6%44.3%
DeepSeek-V3.2671B70.2%40.9%

Qwen3-Coder-Next schlägt DeepSeek-V3.2 auf SWE-Bench, während es nur 0.4% der aktiven Parameter nutzt. Das ist kein Tippfehler. 3B vs 671B.

Claude Opus 4.5 führt immer noch mit 80.9%, aber das ist ein Closed-Source Modell mit unbekannter (wahrscheinlich massiver) Parameteranzahl, das in der Cloud von Anthropic läuft. Die interessante Story hier: Qwen3-Coder-Next bringt dir 87% der Opus-Performance, während es lokal auf deiner eigenen Hardware läuft.

Auf dem härteren SWE-Bench Pro erreicht Qwen 44.3% – und schlägt damit Modelle mit 10-20x mehr aktiven Parametern, inklusive GLM-4.7 (40.6%) und DeepSeek-V3.2 (40.9%).

Warum die MoE Architektur wichtig ist:

Das Modell hat 80B totale Parameter, routet aber nur zu 3B pro Token. Stell es dir vor wie 80 Milliarden Neuronen, von denen aber nur 3 Milliarden für eine bestimmte Frage aufwachen. Das Resultat:

  • 10x höherer Durchsatz als dichte Modelle ähnlicher Kapazität
  • Läuft auf Consumer Hardware (48-64GB RAM)
  • Token-Generierungs-Speed vergleichbar mit einem 3B Dense Modell
  • Reasoning-Fähigkeit eines viel größeren Systems

Der Agentic Training Unterschied

Hier ist, was dieses Modell tatsächlich von bisherigen Coding LLMs unterscheidet.

Die meisten Coding-Modelle lernen, indem sie den nächsten Token in Code-Dateien vorhersagen. Read-only Education.

Qwen3-Coder-Next wurde auf 800.000 verifizierbaren Tasks trainiert, die aus echten GitHub PRs gemined wurden. Der Training-Loop:

  1. Modell versucht einen Bug zu fixen
  2. Tests laufen in einem Docker Container
  3. Erhält Pass/Fail Feedback
  4. Lernt aus echten Ausführungs-Resultaten

Das ist nicht "über Coding lesen" – das ist "Learning by Doing". Das Modell lernte zu planen, Tools aufzurufen, Tests auszuführen und sich von Fehlern zu erholen.

Technische Architektur (für die Nerds)

  • Hybrid Attention: Gated DeltaNet (O(n) lineare Komplexität) + traditionelle Attention
  • 48 Layer mit 2048 Hidden Size
  • Pattern: 12 Blöcke aus (3 DeltaNet Layer → 1 Attention Layer) → MoE
  • 256K nativer Kontext, erweiterbar auf 1M mit YaRN
  • Apache 2.0 Lizenz

Die Gated DeltaNet Attention löst das quadratische Skalierungsproblem, das die meisten Modelle bei langen Kontexten killt. Dein 256K Token Repository-Scan verwandelt sich nicht in eine Memory-Apokalypse.

Hardware Anforderungen: Die echten Zahlen

Q4 Quantized Version:

  • ~46GB VRAM (Dual RTX 4090 oder Mac Studio M3 Ultra)
  • Alternativ: 8GB VRAM + 32GB RAM mit CPU Offload (~12 Tok/Sek)

Sweet Spot Setup:

  • Mac Mini M4 Pro 64GB: ~$2,000
  • Führt das Modell mit 10-15 Token/Sekunde aus
  • Gut genug für echte Coding-Assistenz

Budget Setup:

  • Mac Mini M4 24GB: ~$800
  • Q4 Quantization mit aggressivem Offload
  • Langsamer, aber funktional (~5-8 Tok/Sek)

Community-Reports bestätigen: Du kannst dies auf einer RX 7900 XTX ($900 Consumer GPU) laufen lassen und erhältst brauchbare Performance.

Setup: Claude Code + Ollama + Qwen3-Coder-Next

Seit Januar 2026 unterstützt Ollama die Anthropic Messages API. Claude Code funktioniert mit jedem Ollama Modell direkt "out of the box".

Schritt 1: Installiere Ollama

curl -fsSL https://ollama.com/install.sh | sh

Schritt 2: Pull das Modell

ollama pull qwen3-coder-next

Hinweis: Das lädt ~46GB herunter. Hol dir einen Kaffee.

Schritt 3: Konfiguriere Claude Code

Füge dies zu ~/.bashrc oder ~/.zshrc hinzu:

export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_API_KEY=""

Oder nutze den neuen Launcher:

ollama launch claude

Schritt 4: Run

claude --model qwen3-coder-next

Das war's. Claude Code läuft jetzt mit lokaler Inferenz. Dein Code verlässt niemals deine Maschine.

OpenClaw Integration (Für die Ambitionierten)

OpenClaw (ehemals Clawdbot, ehemals Moltbot) ist der virale Open-Source AI Agent mit 145.000+ GitHub Stars. Er verwandelt dein lokales LLM in einen proaktiven 24/7 Assistenten, der via WhatsApp, Telegram oder Discord erreichbar ist.

Warum Qwen3-Coder-Next + OpenClaw kombinieren?

  • Persistentes Gedächtnis: Agent erinnert sich über Wochen an Kontext
  • Proaktive Aktionen: Geplante Automatisierungen, Monitoring, Alerts
  • Messaging Interface: Texte deinem Code-Agenten von deinem Handy
  • Voller System-Zugriff: File Management, Browser Automation, Shell Commands

Der Security Reality Check:

OpenClaw ist mächtig, aber riskant. Es hatte bereits CVEs. Die Community fand bösartige Skills im ClawHub Repo. Security Experten nennen es eine "tödliche Trifecta" von Risiken.

Newsletter

Wöchentliche Insights zu AI-Architektur. Kein Spam.

Wenn du es deployest:

  • Nutze DigitalOcean's gehärteten 1-Click Deploy
  • Exponiere das Gateway niemals ohne Auth ins öffentliche Internet
  • Wheliste nur notwendige Tools
  • Lasse es auf isolierter Hardware laufen

Basis OpenClaw + Local Model Setup:

# Install OpenClaw
npm install -g openclaw@latest

# Configure to use local Ollama
# In your OpenClaw config:
{
  "llm": {
    "provider": "anthropic",
    "baseUrl": "http://localhost:11434",
    "model": "qwen3-coder-next"
  }
}

Jetzt hast du Tooling auf Claude-Code-Niveau, das auf deiner eigenen Hardware läuft und von deinem Handy aus zugänglich ist.

Normie Perspektive: Was kann ich damit tatsächlich tun?

Überspringen wir die technischen Details. Hier ist, was für Nicht-Ingenieure zählt:

Vorher (Cloud AI):

  • Zahle $20-200/Monat für API Access
  • Dein Code geht auf die Server anderer Leute
  • Rate Limits genau dann, wenn du sie am wenigsten brauchst
  • Eingeschlossen bei einem Provider

Nachher (Local + Qwen3-Coder-Next):

  • $2.000 einmalige Hardware-Kosten
  • ~$5/Monat Strom
  • Dein Code verlässt nie deine Maschine
  • Keine Rate Limits, keine API Keys, keine Abos
  • Funktioniert offline (im Flugzeug, Zug oder Café mit schlechtem Wifi)

Praktische Use Cases:

  1. Code Review auf Steroiden: Zeig auf deine Codebase, frag "was ist falsch an diesem PR?"
  2. Bug Hunter: "Finde Sicherheitslücken in meinem Auth Flow"
  3. Refactoring Partner: "Konvertiere dieses JavaScript zu TypeScript mit sauberen Typen"
  4. Documentation Writer: "Generiere API Docs aus diesen Endpoints"
  5. Test Generator: "Schreibe Unit Tests für dieses Modul mit 80% Coverage"

Die echte Frage: Sind 70% SWE-Bench gut genug?

Für den Kontext: SWE-Bench testet, ob ein Modell echte GitHub Issues aus populären Repos fixen kann. 70% bedeutet, es löst korrekt 7 von 10 echten Bugs.

Claude Opus 4.5 liegt bei etwa 80.9%. GPT-5.2 in einem ähnlichen Bereich.

Also ja – für die meisten praktischen Coding-Aufgaben ist ein lokales Modell auf diesem Level wirklich nützlich. Nicht perfekt. Ersetzt keine Senior Engineers. Aber nützlich.

Der Vergleich: Wann man was nutzt

SzenarioBeste WahlWarum
Sensitive CodebaseQwen3-Coder-Next localCode verlässt nie die Maschine
Speed kritischCloud API (Opus 4.5)50+ Tok/Sek vs 10-15
Budget begrenztLocal nach 8 MonatenBreak-even vs API Kosten
Offline ArbeitLocal einzige OptionKein Internet benötigt
Komplexes Multi-Step ReasoningOpus 4.5 (80.9%)10 Punkte voraus
Standard Coding TasksBeides funktioniert70% ist genug für die meisten Tasks

Die Ökonomie

Cloud API (Claude Opus 4.5):

  • $3/Million Input Token, $15/Million Output
  • Heavy Usage: $70-150/Monat
  • Light Usage: $20-30/Monat

Local (Qwen3-Coder-Next):

  • Hardware: $2.000 (Mac Mini M4 Pro 64GB)
  • Strom: ~$5/Monat
  • Break-even: 8-12 Monate je nach Nutzung

Nach dem Break-even lässt du im Grunde Frontier-Level Coding AI umsonst laufen.

Das Urteil

Qwen3-Coder-Next ist der "Real Deal".

70.6% SWE-Bench mit 3B aktiven Parametern ist architektonisch beeindruckend. Der Agentic Training Ansatz produziert ein Modell, das den Code-Test-Fix Loop tatsächlich versteht, anstatt nur Token vorherzusagen. Ja, Opus 4.5 gewinnt immer noch mit 80.9% – aber das ist ein geschlossenes Modell auf den Servern anderer Leute.

Für Ingenieure: Mac Mini M4 Pro 64GB + Ollama + Qwen3-Coder-Next + Claude Code. Das ist dein Setup. Du bekommst 87% der Opus Performance ohne Opus Kosten oder Privacy Bedenken.

Für alle anderen: Wenn du $50+/Monat für AI Coding Tools zahlst, favorisiert die Mathematik jetzt den Hardware-Kauf. Einmalige Kosten, permanente Fähigkeiten, deine Daten bleiben deine.

Das große Bild: Die Lücke zwischen Open-Source und Proprietary kollabiert. Vor einem Jahr hieß "AI lokal laufen lassen" massive Qualitätsverluste zu akzeptieren. Jetzt heißt es "10 Punkte hinter der Frontier, unendlich privater, langfristig günstiger."

Starte mit Qwen3-Coder-Next auf bescheidener Hardware. Upgrade, wenn du an echte Grenzen stößt, nicht an eingebildete.

Der Strategische Winkel: AI-Infrastruktur-Unabhängigkeit

Die Angst vor dem "was wenn die Musik aufhört zu spielen" ist real. Anthropic verbrennt 2 Mrd. $ pro Jahr. OpenAI braucht jährlich über 10 Mrd. $. Aktuell subventionieren diese Firmen unsere Workflows mit VC-Geld. Eines Tages verzehnfachen sich die Preise oder die API verschwindet hinter einer Enterprise-Wall.

Und jetzt? Es gibt eine Versicherung. Sie kostet den Preis eines High-End Mac Minis (2.000 €). Einmalzahlung. Gehört dir für immer.

Da Qwen3 lokal 70% im SWE-Bench erreicht, bedeutet "Local AI" nicht mehr, kaputte 7B-Modelle laufen zu lassen, die an For-Schleifen scheitern. Es ist legitim wettbewerbsfähig mit Frontier-Modellen für echte Engineering-Arbeit.

Dein neuer Notfallplan:

  1. High-End: Nutze weiterhin Opus/Sonnet für komplexe Architektur-Entscheidungen (sie sind immer noch ~10 Punkte voraus).
  2. Versicherung: Wisse, dass du die Hardware und die Gewichte hast, um weiter zu liefern, wenn die Cloud-Infrastruktur wackelt.
  3. Privatsphäre: Für sensiblen Code macht Local Hosting jetzt schon Sinn.

Dies ist der Moment, in dem lokale AI vom Hobby-Projekt zum legitimen Profi-Tool wurde. Das sind nicht nur Tech-News; das ist Karriere-Sicherheit.

Newsletter

Wöchentliche Insights zu AI-Architektur

Kein Spam. Jederzeit abbestellbar.

Häufig gestellte Fragen

Empfohlen: Mac Mini M4 Pro mit 64GB RAM (2.000 €). Minimum: 8GB VRAM + 32GB RAM mit CPU-Offload (~12 Tok/Sek).

Qwen3 erreicht 70.6% auf SWE-Bench (Opus: 80.9%). Es läuft lokal kostenlos, Opus kostet API-Gebühren.

Ja. Setze ANTHROPIC_BASE_URL=http://localhost:11434 und nutze 'claude --model qwen3-coder-next'.

Mit einem 2.000 € Mac Mini und typischer Nutzung liegt der Break-even bei 8-12 Monaten im Vergleich zu Cloud APIs.

Ja, langfristig. Eine API wie Opus kostet ~$15/Million Token. Ein Mac Mini kostet einmalig 2.000 €. Bei täglicher Nutzung amortisiert sich die Hardware in Monaten, und man vermeidet Preiserhöhungen und Abhängigkeit.

Lass uns
vernetzen.

Ich bin immer offen für spannende Diskussionen über Frontend-Architektur, Performance und moderne Web-Stacks.

Schreib mir
Schreib mir