Claude Code ist Anthropics bestes agentisches Coding-Tool. Es ist auch teuer — Opus 4.5 verbrennt API Credits schnell, und Claude Max kostet $90/Monat. Ein Team von Entwicklern kommt leicht auf $2.000+/Monat.
Seit Januar 2026 brauchst du Anthropics API nicht mehr. Ollama v0.14.0 hat native Anthropic Messages API Kompatibilität hinzugefügt. Drei Umgebungsvariablen, und Claude Code spricht mit lokalen Modellen. Keine API-Kosten. Dein Code verlässt nie deine Maschine.
Hier ist das komplette Setup, die Modelle die tatsächlich funktionieren, und die ehrliche Performance-Realität.
Wie es funktioniert
Claude Code ist es egal wo sein Modell läuft. Es spricht das Anthropic Messages API. Ollama spricht jetzt dasselbe Protokoll. Zeige Claude Code auf localhost:11434 statt api.anthropic.com, und es funktioniert genauso — File Edits, Tool Calls, Terminal Commands, die volle agentische Schleife.
Der Schlüsselunterschied: statt deine gesamte Codebase an Anthropics Server für Inferenz zu senden, läuft alles auf deiner Hardware. Privatsphäre ist absolut. Latenz hängt von deiner Maschine ab, nicht von deiner Internetverbindung.
Was du brauchst
Software:
- Ollama v0.14.0+ (v0.14.3-rc1 oder neuer empfohlen für Streaming Tool Calls)
- Claude Code CLI (neueste Version)
- Node.js 18+
Hardware (realistische Minima):
| Setup | RAM | Modelle die laufen | Tokens/Sek | Kosten |
|---|---|---|---|---|
| Mac Mini M4 24GB | 24GB | GLM-4.7-Flash (Q4), kleine Modelle | 20-30 | $599 |
| Mac Mini M4 Pro 48GB | 48GB | Die meisten 30B Modelle bequem | 35-55 | $1.599 |
| Mac Mini M4 Pro 64GB | 64GB | 32B Modelle, einige 70B quantisiert | 10-60 | $1.999 |
| RTX 4090 24GB | 24GB VRAM | GLM-4.7-Flash, schnell | 120-220 | ~$1.800 GPU |
Der Mac Mini M4 Pro 64GB für $1.999 ist der Sweet Spot. Unified Memory bedeutet kein VRAM-Engpass. Läuft 30B MoE Modelle bei nutzbaren Geschwindigkeiten. Amortisiert sich in etwa 8 Monaten gegenüber API-Kosten. Ich habe eine ausführliche Anleitung geschrieben für den Mac Mini als AI-Server falls du den Hardware Deep Dive brauchst.
Setup: 5 Minuten, 4 Schritte
Schritt 1: Ollama installieren
# macOS/Linux
curl -fsSL https://ollama.ai/install.sh | sh
# Für volle Tool-Call Unterstützung, Pre-Release nutzen:
curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.14.3-rc1 sh
Auf macOS kannst du auch von ollama.com/download herunterladen.
Überprüfe dass es läuft:
ollama version
# Sollte 0.14.0 oder höher zeigen
Schritt 2: Ein Modell pullen
# Empfohlener Einstieg — bester Tool-Calling Support
ollama pull glm-4.7-flash
# Alternative Coding Modelle
ollama pull qwen3-coder
ollama pull gpt-oss:20b
GLM-4.7-Flash ist ein 30B Parameter MoE Modell mit nur 3B aktiven Parametern pro Token. Deshalb ist es schnell trotz der großen Gesamtgröße. 128K Context Window. Native Tool-Calling Unterstützung — entscheidend für Claude Codes agentische Schleife.
Schritt 3: Umgebung konfigurieren
Schneller Weg (neu):
ollama launch claude
Das erledigt alles automatisch.
Manueller Weg (mehr Kontrolle):
Füge zu deiner ~/.bashrc, ~/.zshrc, oder ~/.config/fish/config.fish hinzu:
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434
Oder setze sie in Claude Codes Settings-Datei unter ~/.claude/settings.json:
{
"env": {
"ANTHROPIC_BASE_URL": "http://localhost:11434",
"ANTHROPIC_AUTH_TOKEN": "ollama",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
}
}
Das CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC Flag ist optional aber empfohlen — es verhindert dass Claude Code nach Hause telefoniert und stellt sicher dass alles lokal bleibt.
Schritt 4: Starten
claude --model glm-4.7-flash
Oder inline ohne persistierende Umgebungsvariablen:
ANTHROPIC_AUTH_TOKEN=ollama \
ANTHROPIC_BASE_URL=http://localhost:11434 \
ANTHROPIC_API_KEY="" \
claude --model glm-4.7-flash
Das war's. Claude Code läuft jetzt auf deinem lokalen Modell.
Beste Modelle für lokales agentisches Coding
Nicht alle Modelle funktionieren gut mit Claude Code. Die agentische Schleife braucht Tool-Calling Support, ausreichende Context Windows und Coding-Fähigkeit. Das funktioniert tatsächlich:
| Modell | Parameter (Aktiv) | Kontext | Tool Calling | Am besten für |
|---|---|---|---|---|
| GLM-4.7-Flash | 30B (3B) | 128K | Nativ | Bester Allround-Einstieg |
| Qwen3-Coder-30B | 30B (3B) | 256K | Ja | Coding-Spezialist |
| GPT-OSS-20B | 20B (dicht) | 128K | Ja | Allgemeine Aufgaben |
| Devstral-2-Small | 24B | 128K | Ja | Leichtgewichtige Option |
Meine Empfehlung: Starte mit GLM-4.7-Flash. Es hat die beste Balance aus Geschwindigkeit, Tool-Calling Zuverlässigkeit und Coding-Qualität für Claude Code Workflows. Ollamas eigene Dokumentation empfiehlt es für die Claude Code Integration.
Wöchentliche Insights zu AI-Architektur. Kein Spam.
Qwen3-Coder-Next ist das bessere reine Coding-Modell, aber GLM-4.7-Flash hat zuverlässigeres Tool-Calling — und Tool-Calling ist das was Claude Code agentisch macht statt nur ein Chatbot zu sein.
Der Reality Check
Ich sage dir ehrlich was du aufgibst.
Was lokal gut funktioniert:
- Routine-Refactoring und File Edits
- Test-Generierung
- Code Review und Analyse
- Einfache Feature-Implementierungen
- Dokumentation schreiben
- Arbeit an sensiblem/proprietärem Code
Was weiterhin Cloud-Modelle braucht:
- Komplexe Multi-File architektonische Änderungen
- Tiefes Reasoning über große Codebases
- Neuartiges Algorithmus-Design
- Aufgaben die Frontier-Level Intelligenz erfordern
GLM-4.7-Flash erreicht 59.2% auf SWE-bench Verified. Das ist beeindruckend für ein lokales Modell — es schlägt Qwen3-30B (22%) und GPT-OSS-20B (34%). Aber Opus 4.5 spielt immer noch in einer anderen Liga für komplexes Reasoning.
Der praktische Ansatz: nutze lokal für 80% deiner täglichen Coding-Aufgaben. Wechsle zur Cloud API wenn du auf etwas stößt das wirklich Frontier-Intelligenz braucht.
Context Length: Der versteckte Haken
Claude Code frisst Kontext. Jede Datei die es liest, jeder Befehl den es ausführt, jeder Tool Call — alles Tokens. Ollama setzt standardmäßig relativ kurze Context Windows.
Setze mindestens 20K für grundlegende Nutzung, 32K+ für echte Projekte:
# Context Length beim Start von Ollama setzen
OLLAMA_NUM_CTX=32768 ollama serve
Oder in deinem Modelfile:
FROM glm-4.7-flash
PARAMETER num_ctx 32768
Mehr Kontext = mehr RAM. Auf einem 64GB Mac Mini sind 32K Kontext bequem. 64K ist möglich aber schränkt die Modell-Performance ein. 128K braucht 48GB+ allein für den KV-Cache zusätzlich zu den Modell-Gewichten.
DataCamps Tests ergaben dass 20K Kontext die beste Balance zwischen Funktionalität und Geschwindigkeit für Claude Code Workflows bietet. Starte dort und erhöhe nur wenn du an Grenzen stößt.
Häufige Probleme und Lösungen
"Connection refused" Ollama läuft nicht. Starte es:
ollama serve
"Model not found" Installierte Modelle prüfen und den exakten Namen verwenden:
ollama list
Tool Calls schlagen fehl / Streaming Fehler Du brauchst Ollama 0.14.3-rc1 oder neuer. Stabile Releases davor hatten Probleme mit Streaming Tool Calls die Claude Codes agentische Schleife brechen:
curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.14.3-rc1 sh
Langsame Antworten Erwartet auf CPU. Auf Apple Silicon stelle sicher dass das Modell in den Unified Memory passt — jedes Page-Out auf SSD killt die Performance. Prüfe mit:
ollama ps
# Achte auf "100% GPU" in der PROCESSOR Spalte
Überprüfe ob es wirklich lokal ist Trenne die Internetverbindung und führe einen Prompt aus. Wenn du eine Antwort bekommst, bist du komplett offline.
Zwischen lokal und Cloud wechseln
Du musst dich nicht entscheiden. Nutze lokal für tägliche Arbeit, Cloud für komplexe Aufgaben.
Zu lokal wechseln:
export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=ollama
claude --model glm-4.7-flash
Zurück zur Cloud:
unset ANTHROPIC_BASE_URL
unset ANTHROPIC_AUTH_TOKEN
claude # Nutzt Anthropic API mit deinem API Key
Kostenvergleich
| Cloud API (Opus 4.5) | Claude Max ($90/Mo) | Lokal (Mac Mini) | |
|---|---|---|---|
| Hardware | $0 | $0 | $1.999 einmalig |
| Monatliche Kosten | $200-2.000+ | $90 | ~$3-5 Strom |
| Break-Even | — | — | 4-8 Monate |
| Privatsphäre | Code geht zu Anthropic | Code geht zu Anthropic | 100% lokal |
| Geschwindigkeit | 50+ Tok/s | 50+ Tok/s | 20-60 Tok/s |
| Intelligenz | Frontier | Frontier | Gut genug für 80% |
Ich habe $90/Monat für Claude Max bezahlt und weitere $30-40 für Gemini API. Das sind $130/Monat. Der Mac Mini amortisiert sich in unter einem Jahr, und danach ist es im Prinzip kostenlose KI für immer.
Das Urteil
Mac Mini M4 Pro 64GB + Ollama + GLM-4.7-Flash. Das ist das Setup.
Es wird Opus 4.5 nicht ersetzen für komplexe architektonische Entscheidungen. Es wird dein tägliches Refactoring, Test-Schreiben, Code Review und Dokumentation übernehmen — bei null Grenzkosten, ohne dass Daten deine Maschine verlassen.
Wenn du auch einen persönlichen AI Agent auf deinem Handy willst, verwandelt OpenClaw auf dem gleichen Mac Mini eine Box in deinen Coding-Assistenten und deinen Telegram-Bot zugleich.
Starte mit ollama launch claude. Upgrade dein Modell oder Hardware wenn du an echte Grenzen stößt, nicht an eingebildete.