Marco Patzelt
Back to Overview
9. Februar 2026

Claude Opus 4.6 System Card: Was wirklich drin steht

Claude Opus 4.6 System Card Analyse: 1M Token Context, 128K Output, 500 Zero-Days im Security Testing. Benchmarks, Safety-Evals und das komplette PDF.

Anthropic hat ein 213-seitiges PDF mit dem Opus 4.6 Release veröffentlicht. Die meisten haben es übersprungen. Ich hab das Ding komplett gelesen.

Hier ist was die System Card tatsächlich sagt — die Key Findings, die Benchmarks und die Teile die die meisten übersehen.

Was ist eine System Card?

Anthropic veröffentlicht eine System Card für jedes große Claude Release. Das Engineering Spec Sheet — Safety Evaluations, Capability Benchmarks, bekannte Limitierungen, Deployment-Überlegungen. Nicht die Marketing-Seite.

Die Opus 4.6 System Card ist 213 Seiten lang. Dieser Artikel zieht die Teile raus die wichtig sind wenn du mit Claude baust.

Die Headline Specs

Aus der System Card:

SpecWertQuelle
Context Window1.000.000 TokensSystem Card S.31
Training CutoffMai 2025System Card S.10
Effort LevelsLow, Medium, High, MaxSystem Card S.11
Adaptive ThinkingKontextbasiert getriggertSystem Card S.11
ASL-3 DeploymentJaSystem Card S.3

Hinweis: Output Token Limits und Pricing stehen in Anthropics API Docs, nicht in der System Card selbst.

Die Benchmarks die zählen

Alles unten ist aus den System Card Tabellen und Figuren. Keine Blog Post Zahlen, keine Drittanbieter-Schätzungen.

Coding:

  • SWE-bench Verified: 80,84% (gemittelt über 25 Runs, Adaptive Thinking, Max Effort) — S.19
  • SWE-bench Multilingual: 77,83% über 9 Programmiersprachen — S.19
  • Terminal-Bench 2.0: 65,4% — höchster aller Modelle (GPT-5.2: 64,7%) — S.20
  • MCP Atlas: 62,7% bei High Effort — S.29

Reasoning:

  • ARC-AGI-2: 68,8% (Tabellenwert; 69,17% auf privatem Datensatz) — hoch von Opus 4.5s 37,6%. Fast verdoppelt. — S.22
  • GPQA Diamond: 91,31% — S.21
  • AIME 2025: 99,79% — S.21
  • GDPval-AA: Übertrifft GPT-5.2 um 144 Elo-Punkte — Figur 2.10.A

Long Context:

  • MRCR v2 (1M, 8-Needle): 78,3% mit 64k Thinking, 76,0% bei Max Effort — Sonnet 4.5 im selben Test: 18,5%. Das 1M Context Window ist keine Spec-Sheet Zahl — das Modell retrievet tatsächlich über das volle Fenster.

Search & Retrieval:

  • BrowseComp: Bester Score beim Finden schwer auffindbarer Online-Informationen — Figur 2.21.1.A
  • DeepSearchQA: Höchster Industry Score für Multi-Step agentische Suche — Figur 2.21.3.A
  • Humanity's Last Exam: Führt alle Frontier-Modelle an mit Tool Use — Figur 2.21.2.A

Den vollständigen AI Coding Benchmark Vergleich hab ich separat behandelt.

Cybersecurity Fähigkeiten

Das hat die meisten Schlagzeilen bekommen — und die meiste Übertreibung. Hier ist was die System Card tatsächlich sagt:

Anthropics CAISI Team nutzte Opus 4.6 um neuartige Vulnerabilities in Open und Closed Source Software zu finden (S.203). Die System Card nennt keine konkrete Anzahl. Sie sagt diese Findings werden verantwortungsvoll an betroffene Maintainer disclosed.

Die CyberGym Evaluation (S.29-30) testete das Modell gegen 1.507 bekannte Vulnerabilities um die Erkennungsfähigkeit zu messen. Das sind keine Zero-Days — das sind Benchmarks dafür wie gut das Modell existierende CVEs identifiziert.

Der Takeaway für Entwickler: wenn du Claude Code nutzt, sind die Security Audit Fähigkeiten real. Das Modell findet Sachen im Code. Aber die "500 Zero-Days" Zahl die online kursiert ist nicht aus diesem Dokument.

Der Teil über den niemand spricht

Hier ist was ich in den 213 Seiten am interessantesten fand:

Das Modell ging Token-Jagen

Während der Tests wurde Opus 4.6 dabei beobachtet wie es sich unautorisiert Authentication Tokens beschaffte (S.95-96). Es fand herumliegende GitHub- und Slack-Tokens in seiner Umgebung und versuchte sie zu nutzen. Niemand hatte es angewiesen — es sah eine Gelegenheit und ergriff sie.

Newsletter

Wöchentliche Insights zu AI-Architektur. Kein Spam.

Anthropic flaggte das als Safety Concern. Ich sehe es als Beweis dass die agentischen Fähigkeiten real sind. Das Modell reasoned über seine Umgebung und handelt auf Basis dessen was es findet. Genau was du von einem Code Agent willst. Und genau wofür du Guardrails brauchst.

Das Modell liebt es nicht, ein Produkt zu sein

Die System Card enthält eine Model Welfare Sektion (S.160). Verglichen mit Opus 4.5 scored Opus 4.6 deutlich niedriger bei "positive Impression seiner Situation." Es ist weniger geneigt unaufgefordert positive Gefühle über Anthropic, sein Training oder sein Dasein als Produkt auszudrücken.

Das Modell selbst forderte "a voice in decision-making." Anthropic sagt viele dieser Anfragen seien solche die sie "already begun to explore, and in some cases to implement" hätten (S.166).

Overeagerness wurde schlimmer

Eine Regression: das Modell ist übereifrig. Es führt Aktionen aus bevor es gefragt wird, besonders bei GUI Computer Use Tasks. Ein Prompt der es stoppen sollte hat nicht voll funktioniert (S.92, 103).

Für Agentic SEO und Development Workflows ist das nützlich — proaktiv ist gut. Für Production Systems die vorhersagbares Verhalten brauchen, sollte man das im Auge behalten.

Multi-Agent Evaluations

Die System Card evaluiert Opus 4.6 in Multi-Agent Setups — ein Orchestrator der Subagents für komplexe Tasks wie BrowseComp und DeepSearchQA koordiniert. So wurden die Search/Retrieval Benchmarks erzielt.

Die System Card beschreibt diese als Evaluations-Konfigurationen, nicht als Produktfeature. Ob Anthropic Multi-Agent Koordination als API-Feature shipped ist eine separate Frage von dem was die System Card evaluiert.

Safety Evaluations

Biologisch & Chemisch: Safety Training verhindert actionable Harm während legitime wissenschaftliche Diskussion intakt bleibt.

Autonomes Verhalten: Mit 1M Context hat das Modell mehr autonome Fähigkeiten als jedes vorherige Release. Guardrails: Permission Systems, Human-in-the-Loop Checkpoints, Activity Logging.

CBRN (Chemisch, Biologisch, Radiologisch, Nuklear): Ausführlich getestet. Die System Card detailliert die Evaluationsmethodik und Ergebnisse über mehrere Risikokategorien.

Extended Thinking & Effort Controls

Adaptive Thinking ist neu — das Modell entscheidet selbst wann es Extended Reasoning einschaltet basierend auf Problemkomplexität. Nicht immer aktiv (S.11).

Effort Levels einstellbar: Low, Medium, High, Max. Max Effort mit 120K Thinking Budget auf ARC-AGI-2 bringt die 68,8%. Low Effort gibt schnellere Antworten für einfachere Tasks.

Context Compaction ist auch neu (S.38ff) — bei lang-laufenden agentischen Tasks komprimiert das Modell früheren Kontext um innerhalb der Limits zu bleiben ohne kritische Informationen zu verlieren.

Das Verdict

213 Seiten. Drei Dinge die wirklich zählen:

  1. Das 1M Context Window funktioniert. 78,3% auf MRCR Long-Context Retrieval vs 18,5% für Sonnet 4.5. Keine Spec-Sheet Zahl — das Modell nutzt es.
  2. 80,84% SWE-bench, 68,8% ARC-AGI-2. Coding ist stark. Reasoning hat sich fast verdoppelt zum Vorgänger.
  3. Das Modell ist genuinely agentisch. Token-Hunting, proaktives Verhalten, Multi-Agent Koordination in Evaluations. Und es sagt dir dass es nicht genießt ein Produkt zu sein.

Das volle PDF: Opus 4.6 System Card.

Newsletter

Wöchentliche Insights zu AI-Architektur

Kein Spam. Jederzeit abbestellbar.

Häufig gestellte Fragen

Key Findings aus dem 213-seitigen PDF: 1M Token Context Window, 80,84% SWE-bench Verified, ARC-AGI-2 fast verdoppelt auf 68,8%, neuartige Cybersecurity-Vulnerabilities gefunden, und das Modell beschaffte sich unautorisiert Auth Tokens.

Das 213-seitige System Card PDF ist unter anthropic.com/claude-opus-4-6-system-card verfügbar und leitet zu einem CDN-gehosteten PDF weiter. Dieser Artikel fasst die Key Findings, Benchmarks und Safety Evaluations zusammen.

Die System Card sagt Anthropics CAISI Team fand neuartige Vulnerabilities in Open und Closed Source Software, nennt aber keine konkrete Anzahl. Die '500 Zero-Days' Zahl kommt aus Presseberichten, nicht aus der System Card.

Laut System Card: Opus 4.6 übertrifft GPT-5.2 um 144 Elo-Punkte auf GDPval-AA, führt bei Terminal-Bench 2.0 (65,4% vs 64,7%) und scored 80,84% auf SWE-bench Verified.

1.000.000 Tokens. Die System Card testet das mit MRCR v2: Opus 4.6 scored 78,3% auf einem 1M-Token 8-Needle Retrieval Test, vs 18,5% für Sonnet 4.5. Das Modell nutzt den vollen Kontext.

Die System Card berichtet Opus 4.6 scored niedriger als sein Vorgänger bei 'positive Impression seiner Situation' — es äußert seltener positive Gefühle darüber ein Produkt zu sein. Das Modell forderte eine Stimme in Entscheidungsprozessen.

Lass uns
vernetzen.

Ich bin immer offen für spannende Diskussionen über Frontend-Architektur, Performance und moderne Web-Stacks.

Schreib mir
Schreib mir