Marco Patzelt
Back to Overview
5. Februar 2026

Claude Opus 4.6: Benchmarks, Agent Teams & Was sich wirklich geändert hat

Claude Opus 4.6 schlägt GPT-5.2 um 144 Elo bei Enterprise Tasks—1M Token Context, Agent Teams in Claude Code, 128K Output. Benchmarks und Pricing.

Claude Opus 4.6: Benchmarks, Agent Teams & Was sich wirklich geändert hat

Anthropic's smartestes Modell hat gerade ein massives Upgrade bekommen—und dieses Mal geht es nicht nur um Benchmarks. Claude Opus 4.6 ist gedroppt: mit dem ersten 1M Token Context Window für ein Opus-Modell, Multi-Agent-Koordination in Claude Code und Cybersecurity-Fähigkeiten, die vor dem Launch über 500 echte Zero-Day-Schwachstellen gefunden haben.

Hier ist, was wirklich zählt.

Opus 4.6 vs Opus 4.5: Was sich geändert hat

Opus 4.5 kam im November 2025. Drei Monate später baut 4.6 darauf auf mit gezielten Upgrades in fünf Bereichen: Context, Agents, Coding, Enterprise Workflows und Developer Controls.

Context Window: 200K → 1M Tokens (Beta) Das erste Opus-Modell mit einem Millionen-Token Context Window. Im MRCR v2 Benchmark—einem Needle-in-a-Haystack Test—erreicht Opus 4.6 einen Score von 76%. Sonnet 4.5 liegt bei 18,5%. Das ist kein inkrementelles Update. Das ist ein qualitativer Shift darin, wie viel Kontext das Modell tatsächlich nutzen kann.

Output Tokens: 128K Max Genug, um ganze Codebases oder vollständige Dokumente in einem einzigen Pass zu schreiben. Kein Chunking komplexer Tasks mehr in mehrere Requests.

Agent Teams in Claude Code Das Headline-Feature. Statt einem Agenten, der Tasks sequenziell abarbeitet, spinnst du mehrere Agenten hoch, die jeweils ihren Teil besitzen und parallel koordinieren. Denk daran wie das Delegieren an ein Team, statt eine einzelne Person zu micromanagen. Aktuell verfügbar als Research Preview in Claude Code und via API. Aktivierung: setze CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 in deiner Umgebung.

Adaptive Thinking Das Modell kann jetzt basierend auf Context Clues entscheiden, wie viel Reasoning es anwendet. Du musst nicht mehr zwischen "Thinking On" und "Thinking Off" wählen. Vier Effort-Level: Low, Medium, High (Default), Max.

Context Compaction Claude kann seinen eigenen älteren Kontext während langlaufender Tasks zusammenfassen. Kein "Hitting Walls" mehr mitten in komplexen Multi-Step-Jobs.

Claude Opus 4.6 Benchmarks: Die Zahlen

Hier ist, wie Opus 4.6 im Vergleich zur Konkurrenz abschneidet:

BenchmarkOpus 4.6Opus 4.5GPT-5.2
GDPval-AA (Elo)1,606+190 Elo drunter+144 Elo drunter
Terminal-Bench 2.065.4%Below
Humanity's Last Exam#1BelowBelow
BrowseComp#1BelowBelow
MRCR v2 (Context)76%
Finance Agent60.7%55.2%Below
BigLaw Bench90.2%BelowBelow

GDPval-AA ist der wichtigste Wert hier. Er misst die Performance bei ökonomisch wertvoller Wissensarbeit—Finance, Legal, komplexe Domains. Opus 4.6 schlägt GPT-5.2 um 144 Elo-Punkte. Das übersetzt sich in eine Win-Rate von ca. 70% in direkten Vergleichen.

Terminal-Bench 2.0 mit 65,4% ist der höchste Score, den je ein Modell bei agentischer Coding-Evaluation erreicht hat. Auf Humanity's Last Exam—komplexes multidisziplinäres Reasoning—führt Opus 4.6 alle anderen Frontier-Modelle an. Punkt.

BigLaw Bench: 90.2%. Anthropic's System Card PDF bestätigt diesen Wert mit 40% perfekten Scores. Für Legal AI ist das ein neuer Maßstab—und der Grund, warum Harvey (AI Legal Tool) bereits produktiv damit arbeitet.

Opus 4.6 vs GPT-5.2: Der direkte Vergleich

Die Frage, die alle stellen: Wie vergleicht sich Opus 4.6 mit OpenAI's neuestem Modell?

FaktorOpus 4.6GPT-5.2
Enterprise Tasks (GDPval-AA)1,606 Elo1,462 Elo
Context Window1M Tokens (Beta)1M Tokens
Max Output128K Tokens32K Tokens
Agentisches Coding65.4% Terminal-BenchBelow
Pricing (Input)$5/M Tokens$10/M Tokens
Agent Teams✓ (Claude Code)

144 Elo-Punkte Unterschied bei Enterprise Tasks. Das ist kein Rundungsfehler—das ist eine Win-Rate von ~70%. Bei Output-Kapazität und Pricing hat Opus 4.6 ebenfalls die Nase vorn. GPT-5.2's Stärke bleibt das breitere Ecosystem und die Multi-Modal-Integration.

Die 500 Zero-Days Story

Vor dem Launch gab Anthropic's Frontier Red Team dem Modell Zugriff auf Python und Vulnerability Analysis Tools in einer gesandboxten Umgebung. Keine spezialisierten Instruktionen. Kein vorgeladenes Wissen über spezifische Lücken.

Das Modell fand über 500 zuvor unbekannte Zero-Day-Schwachstellen in Open-Source-Code. Jede einzelne wurde von Anthropic's Team oder externen Security Researchern validiert. Das System Card PDF dokumentiert den gesamten Prozess.

Newsletter

Wöchentliche Insights zu AI-Architektur. Kein Spam.

Was es gefunden hat:

  • Einen Fehler in GhostScript (dem PDF/PostScript Utility), der Systeme crashen konnte.
  • Buffer Overflow Bugs in OpenSC (Smart Card Processing) und CGIF (GIF Processing).

Das sind keine "Toy Vulnerabilities"—das ist kritische Infrastruktur-Software.

Logan Graham, Head of Anthropic's Frontier Red Team: "Ich wäre nicht überrascht, wenn dies einer der—oder der Hauptweg—wäre, wie Open-Source-Software in Zukunft gesichert wird."

Anthropic hat sechs neue Cybersecurity-Probes hinzugefügt, um potenziell schädliche Nutzungen dieser Fähigkeiten zu erkennen. Sie planen zudem Real-Time-Interventionen, um Missbrauch zu blocken.

Claude Code Agent Teams: Wie es funktioniert

Agent Teams sind das Feature, das am meisten gesucht wird—und das zu Recht. So funktioniert's:

Aktivierung:

export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1

Was es tut: Statt einem einzelnen Claude-Agenten, der alles sequenziell abarbeitet, kannst du mehrere Subagenten hochfahren. Jeder besitzt einen Teil des Problems und arbeitet parallel. Der Hauptagent koordiniert und merged die Ergebnisse.

Real-World Example (NBIM): Norwegen's Staatsfonds testete Agent Teams in 40 Cybersecurity-Untersuchungen. Jeder Test involvierte bis zu 9 Subagenten und 100+ Tool Calls. Opus 4.6 schlug die Claude 4.5 Modelle 38 von 40 Mal im Blind Ranking.

Rakuten: Opus 4.6 schloss autonom 13 GitHub Issues und wies 12 Issues den korrekten Teammitgliedern zu—an einem einzigen Tag.

Bolt.new: "Es one-shotted eine voll funktionale Physics Engine."

Aktuell als Research Preview verfügbar in Claude Code und via API.

Enterprise & Productivity Updates

Claude in PowerPoint (Research Preview) Claude lebt jetzt als Side-Panel in PowerPoint. Es liest deine existierenden Layouts, Fonts und Templates und generiert oder editiert dann Slides, während es dein Design-System beibehält. Verfügbar für Max, Team und Enterprise Plan Kunden in Beta.

Claude in Excel (Upgraded) Besser im Handling langer, mehrstufiger Tasks. Komplexe Finanzmodelle, die früher Babysitting erforderten, funktionieren jetzt zuverlässiger im ersten Durchlauf.

Cowork Integration Opus 4.6 treibt Cowork's autonomes Multitasking an. Es kann Dokumente, Spreadsheets und Präsentationen gleichzeitig erstellen, während du dich auf das Reviewen der Outputs konzentrierst.

Claude Opus 4.6 Pricing, API & Verfügbarkeit

DetailWert
API Model Stringclaude-opus-4-6
Input Pricing$5 pro Million Tokens
Output Pricing$25 pro Million Tokens
Context Window1M Tokens (Beta)
Max Output Tokens128K
Effort ParameterLow, Medium, High (Default), Max
Verfügbarkeitclaude.ai, API, AWS Bedrock, Google Cloud Vertex AI, Microsoft Foundry, GitHub Copilot

Pricing unverändert zu Opus 4.5. Alle großen Cloud-Plattformen ab Tag Eins. Anthropic empfiehlt, den Effort Parameter auf Medium runterzuregeln, wenn das Modell einfache Tasks "overthinkt."

Context: Warum das jetzt wichtig ist

Dieser Launch passierte nicht im Vakuum. OpenAI hat vor drei Tagen seine Codex Desktop App released und zielt damit direkt auf Claude Code's Momentum. Software-Aktien sind um $285 Milliarden gefallen, weil Investoren Angst vor AI-Disruption haben. Claude Code erreichte $1 Milliarde Run-Rate-Revenue nur sechs Monate nach dem General Availability Launch.

Opus 4.6 ist Anthropic's Antwort auf eine Frage: Kann AI vom Chatbot zum echten Knowledge Worker werden? Die Agent Teams, 1M Context und PowerPoint Integration zeigen alle in dieselbe Richtung—Claude erledigt echte Arbeit, statt nur Fragen zu beantworten.

The Verdict

Opus 4.6 ist das beste Modell, das Anthropic je geshippt hat. Kein revolutionärer Generations-Sprung—es ist Opus 4.5 mit abgeschliffenen Ecken und genuin neuen Fähigkeiten, die drangeschraubt wurden.

Das 1M Context Window und die Agent Teams sind die wirkliche Story. Context erlaubt das Handling von Enterprise-Scale Codebases. Agent Teams erlauben das Parallelisieren von Arbeit, die früher sequenziell war. Die 500 Zero-Day Findings sind sowohl beeindruckend als auch leicht beängstigend.

Wenn du bereits auf Claude Code oder Cowork bist, ist das ein kostenloses Upgrade zum gleichen Preis. Wenn du bisher unentschlossen warst—das ist das Modell, das "AI als Teammitglied" weniger nach Marketing und mehr nach Realität anfühlen lässt.

Newsletter

Wöchentliche Insights zu AI-Architektur

Kein Spam. Jederzeit abbestellbar.

Häufig gestellte Fragen

Ja. Opus 4.6 schlägt Opus 4.5 um 190 Elo-Punkte auf GDPval-AA. Es bietet 1M Token Context (vs 200K), Agent Teams in Claude Code, 128K Output Tokens und Adaptive Thinking. Gleicher Preis.

$5 pro Million Input Tokens, $25 pro Million Output Tokens. Pricing ist identisch zu Opus 4.5. Verfügbar über claude.ai, API, AWS Bedrock, Google Cloud Vertex AI, Microsoft Foundry und GitHub Copilot.

Opus 4.6 schlägt GPT-5.2 um 144 Elo-Punkte auf GDPval-AA (Enterprise Tasks). Es bietet 128K Output Tokens (vs 32K bei GPT-5.2) und Agent Teams. GPT-5.2 kostet $10/M Input Tokens, Opus 4.6 kostet $5/M.

Agent Teams erlauben mehrere Subagenten, die parallel an verschiedenen Teilen eines Problems arbeiten. Aktivierung via CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1. Aktuell als Research Preview verfügbar.

Ja. Anthropic's Frontier Red Team gab Opus 4.6 Zugriff auf Python und Fuzzers in einer Sandbox. Es fand 500+ Zero-Day-Schwachstellen in Open-Source-Code, darunter Bugs in GhostScript, OpenSC und CGIF. Alle validiert.

1 Million Tokens (Beta). Das ist 5x mehr als Opus 4.5 (200K). Im MRCR v2 Benchmark erreicht Opus 4.6 einen Score von 76%, Sonnet 4.5 liegt bei 18,5%.

Anthropic veröffentlicht System Cards auf anthropic.com. Das System Card PDF dokumentiert die Sicherheitsevaluierung, die 500 Zero-Day Findings und die neuen Cybersecurity-Probes im Detail.

Ja. Opus 4.6 ist ab Tag Eins auf AWS Bedrock, Google Cloud Vertex AI, Microsoft Foundry und GitHub Copilot verfügbar. API Model String: claude-opus-4-6.

Lass uns
vernetzen.

Ich bin immer offen für spannende Diskussionen über Frontend-Architektur, Performance und moderne Web-Stacks.

Schreib mir
Schreib mir