Marco Patzelt
Back to Overview
12. Februar 2026

MiniMax M2.5: Opus-Level Coding für $1/Stunde—Was wirklich stimmt

MiniMax M2.5 erreicht 80.2% auf SWE-Bench Verified bei 1/10 der Kosten von Opus—Open Source, 100 TPS. Benchmark-Analyse, Pricing und was es für Devs bedeutet.

MiniMax hat gerade M2.5 veröffentlicht, und die Zahlen sind schwer zu ignorieren: 80.2% auf SWE-Bench Verified, auf dem Niveau von Claude Opus 4.5, bei 1/10 bis 1/20 des Preises.

Das ist kein Minor Update. Drei Versionen in 108 Tagen—M2, M2.1, jetzt M2.5—und die Verbesserungskurve ist steiler als bei jeder anderen Modellfamilie gerade, ob closed oder open. Hier ist was wirklich neu ist, was die Benchmarks bedeuten, und ob es dich interessieren sollte.

Was ist neu bei M2.5

M2.5 behält die gleiche MoE-Architektur wie seine Vorgänger: 230 Milliarden Parameter gesamt, 10 Milliarden aktiv pro Token. Der Effizienz-Ansatz hat sich nicht geändert. Was sich geändert hat ist das Reinforcement Learning.

MiniMax hat M2.5 über 200.000+ reale Umgebungen in 10+ Programmiersprachen trainiert—Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby. Nicht nur Python-Benchmarks. Echte polyglotte Workflows.

Das Architekt-Verhalten: M2.5 hat während des Trainings das entwickelt, was MiniMax "Spec-Writing Tendency" nennt. Bevor es Code schreibt, zerlegt es das Projekt in Features, Struktur und UI-Design wie ein erfahrener Architekt. Das ist kein Prompt-Trick—es ist aus dem RL-Trainingsprozess entstanden.

Zwei Versionen, gleiche Capability:

VersionSpeedInput-PreisOutput-Preis
M2.5-Lightning100 TPS$0.30/1M$2.40/1M
M2.5 (Standard)50 TPS$0.15/1M$1.20/1M

Zum Vergleich: Claude Opus 4.6 läuft bei etwa 50 TPS. M2.5-Lightning ist 2x so schnell bei einem Bruchteil der Kosten.

Die Benchmarks: Was wirklich zählt

Schauen wir auf die Zahlen, die für arbeitende Entwickler relevant sind, nicht auf abstrakte Reasoning-Tests.

Coding:

BenchmarkM2.5M2.1Opus 4.5Opus 4.6
SWE-Bench Verified80.2%74.0%~78%~79%
Multi-SWE-Bench51.3%49.4%
SWE-Bench Pro55.4%
VIBE-Pro (Full-Stack)~Opus 4.5 Level88.6 (VIBE)Baseline

80.2% auf SWE-Bench Verified. Das ist nicht "konkurrenzfähig"—das schlägt die meisten Frontier-Modelle auf dem wichtigsten Coding-Benchmark. Ich habe kürzlich eine vollständige Analyse der Coding-Modelle auf SWE-Bench gemacht—M2.5 würde ganz oben auf dieser Liste stehen.

Multi-SWE-Bench bei 51.3% ist #1, was reales multilinguales Software Engineering über echte Codebases hinweg misst.

Agentic & Search:

BenchmarkM2.5Anmerkungen
BrowseComp (m/ Context Mgmt)76.3%Branchenführend
BFCL (Tool Calling)76.8%SOTA
RISE (Expert Search)FührendNeuer interner Benchmark

Scaffold-Generalisierung: Hier wird es interessant. M2.5 wurde über verschiedene Coding-Agent-Harnesses getestet, nicht nur das eigene:

  • Droid: 79.7% (vs M2.1: 71.3%, Opus 4.6: 78.9%)
  • OpenCode: 76.1% (vs M2.1: 72.0%, Opus 4.6: 75.9%)

Opus 4.6 auf unbekanntem Scaffolding schlagen. Das ist kein Benchmark-Gaming—das ist echte Generalisierung.

Die Speed-Story

Rohe Benchmark-Scores sind eine Sache. Wie schnell du dahin kommst, ist für agentische Workflows entscheidend.

M2.5 erledigt SWE-Bench Verified Tasks in durchschnittlich 22.8 Minuten. M2.1 brauchte 31.3 Minuten. Das ist eine 37% Speed-Verbesserung. Zum Vergleich: Claude Opus 4.6 liegt bei durchschnittlich 22.9 Minuten.

Gleiche Geschwindigkeit wie Opus. Bei einem Bruchteil der Kosten.

Token-Effizienz hat sich auch verbessert: 3.52M Tokens pro SWE-Bench Task vs M2.1s 3.72M. Und über BrowseComp, Wide Search und RISE hinweg braucht M2.5 etwa 20% weniger Runden für Antworten. Das Modell ist nicht nur schneller—es sucht intelligenter.

Die Kosten-Rechnung

Hier wird M2.5 richtig interessant für jeden, der Agents im großen Stil betreibt.

M2.5-Lightning (100 TPS): $1/Stunde im Dauerbetrieb. M2.5 Standard (50 TPS): $0.30/Stunde im Dauerbetrieb.

MiniMax' eigener Claim: $10.000 betreiben 4 Agents ununterbrochen für ein ganzes Jahr. Nachgerechnet:

4 Agents × 365 Tage × 24 Stunden = 35.040 Agent-Stunden. $10.000 ÷ 35.040 = $0.285/Stunde. ✓ Stimmt beim 50 TPS Tier.

Newsletter

Wöchentliche Insights zu AI-Architektur. Kein Spam.

Vergleich das mit Opus 4.6 oder GPT-5, wo allein die Output-Token-Kosten 10-20x höher sind pro Million Tokens. Für Teams die Nightly-CI-Agents, Multi-Repo Code Review oder kontinuierliche Research-Loops betreiben, ist die Wirtschaftlichkeit fundamental anders.

Der Office-Winkel

M2.5 ist nicht mehr nur ein Coding-Modell. MiniMax hat es mit Senior-Professionals aus Finance, Recht und Sozialwissenschaften trainiert, um "wirklich lieferbare Outputs" in Office-Szenarien zu produzieren—Word-Dokumente, PowerPoint-Decks, Excel-Finanzmodellierung.

Auf ihrer internen Cowork Agent Evaluation (GDPval-MM) erreicht M2.5 eine durchschnittliche Win Rate von 59.0% gegen Mainstream-Modelle bei professioneller Dokumentenerstellung. Nicht bahnbrechend, aber bemerkenswert dass ein Coding-first-Modell jetzt im Office-Bereich konkurrenzfähig ist.

MiniMax behauptet, 30% der täglichen Unternehmensaufgaben werden jetzt von M2.5-Agents erledigt, und 80% des neu commiteten Codes ist M2.5-generiert. Wenn das stimmt, ist das eine Firma die ihr eigenes Dogfood im großen Stil frisst.

Der Reality Check

Hype von Substanz trennen.

Was verifiziert ist:

  • Benchmark-Zahlen sind unabhängig bestätigt. Graham Neubig (CMU, einer der angesehensten NLP-Forscher) hat es unabhängig getestet und bestätigt, dass es aktuelle Claude Sonnet Versionen bei Coding-Tasks übertrifft.
  • Die M2-Serien-Architektur (230B/10B MoE) ist gut dokumentiert und für vorherige Versionen Open Source.
  • Pricing ist live auf OpenRouter und MiniMax' eigener Plattform. Bereits bei mehreren Providern verfügbar.
  • Vorherige M2 und M2.1 Versionen haben ihre Benchmark-Claims in Community-Tests gehalten.

Was unklar ist:

  • M2.5 Open-Source-Status ist noch nicht explizit bestätigt. M2 und M2.1 wurden beide komplett auf HuggingFace open-sourced. M2.5 Weights könnten folgen, aber aktuell ist es API-only.
  • Office-Productivity-Claims basieren auf internen Benchmarks (GDPval-MM), die nicht öffentlich verfügbar sind. Die 59% Win Rate mit angemessener Skepsis nehmen.
  • "Spec-Writing"-Verhalten klingt überzeugend, braucht aber Real-World-Validierung jenseits MiniMax' eigener Beispiele.
  • Verbosity war ein bekanntes Problem bei M2. MiniMax behauptet M2.5 sei token-effizienter, aber unabhängige Bestätigung steht noch aus.

Was wirklich beeindruckend ist: Drei Modellversionen in 108 Tagen, jede mit bedeutenden Verbesserungen. M2 → M2.1 → M2.5 zeigt die schnellste Verbesserungskurve der Branche auf SWE-Bench Verified. Das ist kein Hype—das ist Velocity.

Wer sollte sich das ansehen

Ja, wechsel zu M2.5 wenn:

  • Du agentische Coding-Workflows betreibst und Kosten eine Rolle spielen (sie spielen immer eine Rolle)
  • Du Claude Code, Cline, OpenCode, Droid oder ähnliches Scaffolding nutzt—M2.5 generalisiert über alle hinweg
  • Du multilinguales Coding brauchst (Go, Rust, C++, nicht nur Python)
  • Du Always-on-Agents baust, wo $1/Stunde vs $15/Stunde den Business Case komplett ändert

Bleib bei Opus/GPT-5 wenn:

  • Du Peak General Intelligence jenseits von Coding brauchst (HLE Scores favorisieren weiterhin Frontier Closed Models)
  • Dein Workflow von spezifischen Anthropic/OpenAI Ecosystem Features abhängt
  • Du komplexes Creative Writing oder nuancierte Reasoning-Tasks machst, wo die Lücke noch existiert

Abwarten wenn:

  • Du selbst hosten willst. Wenn M2.5 dem M2/M2.1-Muster folgt, landen Open Weights bald auf HuggingFace. Gleiche 230B/10B Architektur bedeutet die Hardware-Anforderungen haben sich nicht geändert.

Qwen3 Coder war der vorherige Open-Source-Leader auf SWE-Bench—M2.5 hat es gerade um über 10 Punkte überholt.

Das Fazit

MiniMax M2.5 ist das echte Ding für Coding und agentische Workflows. 80.2% SWE-Bench Verified, Opus-Level Speed, bei 1/10 des Preises. Open-Source-Lineage. Schnellste Verbesserungskurve der Branche.

Für die meisten Dev-Teams die AI-gestütztes Coding betreiben, ist M2.5-Lightning jetzt die Default-Empfehlung. Gleiche Output-Qualität wie Opus, 2x die Speed, zu einem Preis der Continuous Agent Operation zur Nicht-Entscheidung macht.

Das Open-Source-AI-Rennen hat einen weiteren ernsthaften Contender. Und dieser hier shipped schnell.

Newsletter

Wöchentliche Insights zu AI-Architektur

Kein Spam. Jederzeit abbestellbar.

Häufig gestellte Fragen

MiniMax M2.5 ist ein Open-Source LLM für Coding und agentische Workflows. Es nutzt eine Mixture-of-Experts-Architektur mit 230B Gesamtparametern, 10B aktiv pro Token, und erreicht 80.2% auf SWE-Bench Verified bei 1/10 bis 1/20 der Kosten von Frontier-Modellen.

M2.5-Lightning (100 TPS) kostet $0.30 pro Million Input-Tokens und $2.40 pro Million Output-Tokens—etwa $1/Stunde im Dauerbetrieb. Die Standard-Version mit 50 TPS kostet die Hälfte bei $0.30/Stunde.

M2.5 erreicht oder übertrifft Opus 4.6 bei Coding-Benchmarks: 80.2% SWE-Bench Verified vs ~79%. Es schlägt Opus 4.6 bei Scaffold-Generalisierung (Droid: 79.7% vs 78.9%). Die Speed ist identisch bei ~22.8 Min pro Task. Hauptunterschied: 10-20x günstiger.

Vorherige M2-Modelle wurden unter MIT- und Modified-MIT-Lizenzen auf HuggingFace veröffentlicht. M2.5 startete als API-only. Open Weights werden basierend auf MiniMax' Track Record erwartet, sind aber noch nicht bestätigt.

M2.5 wurde auf 10+ Sprachen trainiert: Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart und Ruby über 200.000+ Umgebungen. Es erreichte Platz 1 auf Multi-SWE-Bench (51.3%).

Auf SWE-Bench Verified erreicht M2.5 80.2% vs DeepSeek V3.2s niedrigere Ergebnisse. M2.5 führt auch bei agentischen Benchmarks wie BrowseComp (76.3%) und Tool Calling (BFCL 76.8%). Für Coding und Agents ist M2.5 aktuell Open-Source-Spitzenreiter.

Noch nicht—M2.5 Weights wurden zum Launch nicht veröffentlicht. Vorherige Versionen laufen lokal über vLLM, SGLang oder MLX. M2.5 Weights werden basierend auf MiniMax' Open-Source-Historie auf HuggingFace erwartet.

M2.5 ist getestet mit Claude Code, Droid (Factory AI), Cline, Kilo Code, OpenCode, Roo Code und BlackBox. Es nutzt Anthropic-kompatible und OpenAI-kompatible API-Endpunkte als Drop-in-Replacement.

Lass uns
vernetzen.

Ich bin immer offen für spannende Diskussionen über Frontend-Architektur, Performance und moderne Web-Stacks.

Schreib mir
Schreib mir