Kann man Claude Code mit lokalen Modellen nutzen?

Ja. Seit Ollama v0.14.0 verbindet sich Claude Code über das Anthropic-kompatible API mit lokalen Modellen. Drei Umgebungsvariablen, ein Befehl, keine API-Kosten.

Welches lokale Modell ist das beste für Claude Code?

GLM-4.7-Flash. 30B MoE Modell mit 3B aktiven Parametern, nativem Tool-Calling, 128K Kontext. Ollama empfiehlt es offiziell für Claude Code.

Wie viel RAM brauche ich für Claude Code mit Ollama?

Minimum 24GB für einfache Modelle. 64GB Unified Memory (Mac Mini M4 Pro) ist der Sweet Spot — läuft 30B Modelle bei 20-60 Tokens/Sekunde bequem.

Ist Claude Code lokal so gut wie die API?

Nein. Lokal bewältigt 80% der täglichen Aufgaben gut — Refactoring, Tests, Code Review. Komplexe Multi-File Architektur und tiefes Reasoning brauchen Opus 4.5 via Cloud.

Kann ich Claude Code offline mit Ollama nutzen?

Ja. Einmal heruntergeladen läuft das Modell komplett offline. CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 setzen um Netzwerkaufrufe zu verhindern.

Wie schnell ist Claude Code lokal auf Mac Mini?

GLM-4.7-Flash auf Mac Mini M4 Pro 64GB: 35-60 Tokens/Sekunde. Mac Mini M4 24GB: 20-30 Tokens/Sekunde. RTX 4090: 120-220 Tokens/Sekunde.

Was kostet Claude Code lokal?

Etwa $3-5/Monat Strom auf einem Mac Mini. Hardware $1.999 einmalig. Amortisiert sich gegenüber $90/Monat Claude Max Abo in unter einem Jahr.

Claude Code für $3/Monat: Lokales Ollama Setup Guide

Claude Code ist Anthropics bestes agentisches Coding-Tool. Es ist auch teuer — Opus 4.5 verbrennt API Credits schnell, und Claude Max kostet $90/Monat. Ein Team von Entwicklern kommt leicht auf $2.000+/Monat.

Seit Januar 2026 brauchst du Anthropics API nicht mehr. Ollama v0.14.0 hat native Anthropic Messages API Kompatibilität hinzugefügt. Drei Umgebungsvariablen, und Claude Code spricht mit lokalen Modellen. Keine API-Kosten. Dein Code verlässt nie deine Maschine.

Hier ist das komplette Setup, die Modelle die tatsächlich funktionieren, und die ehrliche Performance-Realität.

Wie es funktioniert

Claude Code ist es egal wo sein Modell läuft. Es spricht das Anthropic Messages API. Ollama spricht jetzt dasselbe Protokoll. Zeige Claude Code auf localhost:11434 statt api.anthropic.com, und es funktioniert genauso — File Edits, Tool Calls, Terminal Commands, die volle agentische Schleife.

Der Schlüsselunterschied: statt deine gesamte Codebase an Anthropics Server für Inferenz zu senden, läuft alles auf deiner Hardware. Privatsphäre ist absolut. Latenz hängt von deiner Maschine ab, nicht von deiner Internetverbindung.

Was du brauchst

Software:

Ollama v0.14.0+ (v0.14.3-rc1 oder neuer empfohlen für Streaming Tool Calls)
Claude Code CLI (neueste Version)
Node.js 18+

Hardware (realistische Minima):

Setup	RAM	Modelle die laufen	Tokens/Sek	Kosten
Mac Mini M4 24GB	24GB	GLM-4.7-Flash (Q4), kleine Modelle	20-30	$599
Mac Mini M4 Pro 48GB	48GB	Die meisten 30B Modelle bequem	35-55	$1.599
Mac Mini M4 Pro 64GB	64GB	32B Modelle, einige 70B quantisiert	10-60	$1.999
RTX 4090 24GB	24GB VRAM	GLM-4.7-Flash, schnell	120-220	~$1.800 GPU

Der Mac Mini M4 Pro 64GB für $1.999 ist der Sweet Spot. Unified Memory bedeutet kein VRAM-Engpass. Läuft 30B MoE Modelle bei nutzbaren Geschwindigkeiten. Amortisiert sich in etwa 8 Monaten gegenüber API-Kosten. Ich habe eine ausführliche Anleitung geschrieben für den Mac Mini als AI-Server falls du den Hardware Deep Dive brauchst.

Setup: 5 Minuten, 4 Schritte

Schritt 1: Ollama installieren

# macOS/Linux
curl -fsSL https://ollama.ai/install.sh | sh

# Für volle Tool-Call Unterstützung, Pre-Release nutzen:
curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.14.3-rc1 sh

Auf macOS kannst du auch von ollama.com/download herunterladen.

Überprüfe dass es läuft:

ollama version
# Sollte 0.14.0 oder höher zeigen

Schritt 2: Ein Modell pullen

# Empfohlener Einstieg — bester Tool-Calling Support
ollama pull glm-4.7-flash

# Alternative Coding Modelle
ollama pull qwen3-coder
ollama pull gpt-oss:20b

GLM-4.7-Flash ist ein 30B Parameter MoE Modell mit nur 3B aktiven Parametern pro Token. Deshalb ist es schnell trotz der großen Gesamtgröße. 128K Context Window. Native Tool-Calling Unterstützung — entscheidend für Claude Codes agentische Schleife.

Schritt 3: Umgebung konfigurieren

Schneller Weg (neu):

ollama launch claude

Das erledigt alles automatisch.

Manueller Weg (mehr Kontrolle):

Füge zu deiner ~/.bashrc, ~/.zshrc, oder ~/.config/fish/config.fish hinzu:

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434

Oder setze sie in Claude Codes Settings-Datei unter ~/.claude/settings.json:

{
  "env": {
    "ANTHROPIC_BASE_URL": "http://localhost:11434",
    "ANTHROPIC_AUTH_TOKEN": "ollama",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
  }
}

Das CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC Flag ist optional aber empfohlen — es verhindert dass Claude Code nach Hause telefoniert und stellt sicher dass alles lokal bleibt.

Schritt 4: Starten

claude --model glm-4.7-flash

Oder inline ohne persistierende Umgebungsvariablen:

ANTHROPIC_AUTH_TOKEN=ollama \
ANTHROPIC_BASE_URL=http://localhost:11434 \
ANTHROPIC_API_KEY="" \
claude --model glm-4.7-flash

Das war's. Claude Code läuft jetzt auf deinem lokalen Modell.

Beste Modelle für lokales agentisches Coding

Nicht alle Modelle funktionieren gut mit Claude Code. Die agentische Schleife braucht Tool-Calling Support, ausreichende Context Windows und Coding-Fähigkeit. Das funktioniert tatsächlich:

Modell	Parameter (Aktiv)	Kontext	Tool Calling	Am besten für
GLM-4.7-Flash	30B (3B)	128K	Nativ	Bester Allround-Einstieg
Qwen3-Coder-30B	30B (3B)	256K	Ja	Coding-Spezialist
GPT-OSS-20B	20B (dicht)	128K	Ja	Allgemeine Aufgaben
Devstral-2-Small	24B	128K	Ja	Leichtgewichtige Option

Meine Empfehlung: Starte mit GLM-4.7-Flash. Es hat die beste Balance aus Geschwindigkeit, Tool-Calling Zuverlässigkeit und Coding-Qualität für Claude Code Workflows. Ollamas eigene Dokumentation empfiehlt es für die Claude Code Integration.

Newsletter

Wöchentliche Insights zu AI-Architektur. Kein Spam.

Qwen3-Coder-Next ist das bessere reine Coding-Modell, aber GLM-4.7-Flash hat zuverlässigeres Tool-Calling — und Tool-Calling ist das was Claude Code agentisch macht statt nur ein Chatbot zu sein.

Der Reality Check

Ich sage dir ehrlich was du aufgibst.

Was lokal gut funktioniert:

Routine-Refactoring und File Edits
Test-Generierung
Code Review und Analyse
Einfache Feature-Implementierungen
Dokumentation schreiben
Arbeit an sensiblem/proprietärem Code

Was weiterhin Cloud-Modelle braucht:

Komplexe Multi-File architektonische Änderungen
Tiefes Reasoning über große Codebases
Neuartiges Algorithmus-Design
Aufgaben die Frontier-Level Intelligenz erfordern

GLM-4.7-Flash erreicht 59.2% auf SWE-bench Verified. Das ist beeindruckend für ein lokales Modell — es schlägt Qwen3-30B (22%) und GPT-OSS-20B (34%). Aber Opus 4.5 spielt immer noch in einer anderen Liga für komplexes Reasoning.

Der praktische Ansatz: nutze lokal für 80% deiner täglichen Coding-Aufgaben. Wechsle zur Cloud API wenn du auf etwas stößt das wirklich Frontier-Intelligenz braucht.

Context Length: Der versteckte Haken

Claude Code frisst Kontext. Jede Datei die es liest, jeder Befehl den es ausführt, jeder Tool Call — alles Tokens. Ollama setzt standardmäßig relativ kurze Context Windows.

Setze mindestens 20K für grundlegende Nutzung, 32K+ für echte Projekte:

# Context Length beim Start von Ollama setzen
OLLAMA_NUM_CTX=32768 ollama serve

Oder in deinem Modelfile:

FROM glm-4.7-flash
PARAMETER num_ctx 32768

Mehr Kontext = mehr RAM. Auf einem 64GB Mac Mini sind 32K Kontext bequem. 64K ist möglich aber schränkt die Modell-Performance ein. 128K braucht 48GB+ allein für den KV-Cache zusätzlich zu den Modell-Gewichten.

DataCamps Tests ergaben dass 20K Kontext die beste Balance zwischen Funktionalität und Geschwindigkeit für Claude Code Workflows bietet. Starte dort und erhöhe nur wenn du an Grenzen stößt.

Häufige Probleme und Lösungen

"Connection refused" Ollama läuft nicht. Starte es:

ollama serve

"Model not found" Installierte Modelle prüfen und den exakten Namen verwenden:

ollama list

Tool Calls schlagen fehl / Streaming Fehler Du brauchst Ollama 0.14.3-rc1 oder neuer. Stabile Releases davor hatten Probleme mit Streaming Tool Calls die Claude Codes agentische Schleife brechen:

curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.14.3-rc1 sh

Langsame Antworten Erwartet auf CPU. Auf Apple Silicon stelle sicher dass das Modell in den Unified Memory passt — jedes Page-Out auf SSD killt die Performance. Prüfe mit:

ollama ps
# Achte auf "100% GPU" in der PROCESSOR Spalte

Überprüfe ob es wirklich lokal ist Trenne die Internetverbindung und führe einen Prompt aus. Wenn du eine Antwort bekommst, bist du komplett offline.

Zwischen lokal und Cloud wechseln

Du musst dich nicht entscheiden. Nutze lokal für tägliche Arbeit, Cloud für komplexe Aufgaben.

Zu lokal wechseln:

export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=ollama
claude --model glm-4.7-flash

Zurück zur Cloud:

unset ANTHROPIC_BASE_URL
unset ANTHROPIC_AUTH_TOKEN
claude  # Nutzt Anthropic API mit deinem API Key

Kostenvergleich

	Cloud API (Opus 4.5)	Claude Max ($90/Mo)	Lokal (Mac Mini)
Hardware	$0	$0	$1.999 einmalig
Monatliche Kosten	$200-2.000+	$90	~$3-5 Strom
Break-Even	—	—	4-8 Monate
Privatsphäre	Code geht zu Anthropic	Code geht zu Anthropic	100% lokal
Geschwindigkeit	50+ Tok/s	50+ Tok/s	20-60 Tok/s
Intelligenz	Frontier	Frontier	Gut genug für 80%

Ich habe $90/Monat für Claude Max bezahlt und weitere $30-40 für Gemini API. Das sind $130/Monat. Der Mac Mini amortisiert sich in unter einem Jahr, und danach ist es im Prinzip kostenlose KI für immer.

Das Urteil

Mac Mini M4 Pro 64GB + Ollama + GLM-4.7-Flash. Das ist das Setup.

Es wird Opus 4.5 nicht ersetzen für komplexe architektonische Entscheidungen. Es wird dein tägliches Refactoring, Test-Schreiben, Code Review und Dokumentation übernehmen — bei null Grenzkosten, ohne dass Daten deine Maschine verlassen.

Wenn du auch einen persönlichen AI Agent auf deinem Handy willst, verwandelt OpenClaw auf dem gleichen Mac Mini eine Box in deinen Coding-Assistenten und deinen Telegram-Bot zugleich.

Starte mit ollama launch claude. Upgrade dein Modell oder Hardware wenn du an echte Grenzen stößt, nicht an eingebildete.

Claude Code für $3/Monat: Lokales Ollama Setup Guide

Wie es funktioniert

Was du brauchst

Setup: 5 Minuten, 4 Schritte

Schritt 1: Ollama installieren

Schritt 2: Ein Modell pullen

Schritt 3: Umgebung konfigurieren

Schritt 4: Starten

Beste Modelle für lokales agentisches Coding

Der Reality Check

Context Length: Der versteckte Haken

Häufige Probleme und Lösungen

Zwischen lokal und Cloud wechseln

Kostenvergleich

Das Urteil

Wöchentliche Insights zu AI-Architektur

Häufig gestellte Fragen

Lass uns
vernetzen.

Wie es funktioniert

Was du brauchst

Setup: 5 Minuten, 4 Schritte

Schritt 1: Ollama installieren

Schritt 2: Ein Modell pullen

Schritt 3: Umgebung konfigurieren

Schritt 4: Starten

Beste Modelle für lokales agentisches Coding

Der Reality Check

Context Length: Der versteckte Haken

Häufige Probleme und Lösungen

Zwischen lokal und Cloud wechseln

Kostenvergleich

Das Urteil

Wöchentliche Insights zu AI-Architektur

Häufig gestellte Fragen

Lass uns vernetzen.

Lass uns
vernetzen.