Marco Patzelt
Back to Overview
9. Februar 2026

Claude Code für $3/Monat: Lokales Ollama Setup Guide

Claude Code lokal für $3/Monat statt $90+ API-Kosten. Komplettes Ollama Setup, beste Modelle für Agentic Coding und echte Mac Mini Performance-Zahlen hier.

Claude Code ist Anthropics bestes agentisches Coding-Tool. Es ist auch teuer — Opus 4.5 verbrennt API Credits schnell, und Claude Max kostet $90/Monat. Ein Team von Entwicklern kommt leicht auf $2.000+/Monat.

Seit Januar 2026 brauchst du Anthropics API nicht mehr. Ollama v0.14.0 hat native Anthropic Messages API Kompatibilität hinzugefügt. Drei Umgebungsvariablen, und Claude Code spricht mit lokalen Modellen. Keine API-Kosten. Dein Code verlässt nie deine Maschine.

Hier ist das komplette Setup, die Modelle die tatsächlich funktionieren, und die ehrliche Performance-Realität.

Wie es funktioniert

Claude Code ist es egal wo sein Modell läuft. Es spricht das Anthropic Messages API. Ollama spricht jetzt dasselbe Protokoll. Zeige Claude Code auf localhost:11434 statt api.anthropic.com, und es funktioniert genauso — File Edits, Tool Calls, Terminal Commands, die volle agentische Schleife.

Der Schlüsselunterschied: statt deine gesamte Codebase an Anthropics Server für Inferenz zu senden, läuft alles auf deiner Hardware. Privatsphäre ist absolut. Latenz hängt von deiner Maschine ab, nicht von deiner Internetverbindung.

Was du brauchst

Software:

  • Ollama v0.14.0+ (v0.14.3-rc1 oder neuer empfohlen für Streaming Tool Calls)
  • Claude Code CLI (neueste Version)
  • Node.js 18+

Hardware (realistische Minima):

SetupRAMModelle die laufenTokens/SekKosten
Mac Mini M4 24GB24GBGLM-4.7-Flash (Q4), kleine Modelle20-30$599
Mac Mini M4 Pro 48GB48GBDie meisten 30B Modelle bequem35-55$1.599
Mac Mini M4 Pro 64GB64GB32B Modelle, einige 70B quantisiert10-60$1.999
RTX 4090 24GB24GB VRAMGLM-4.7-Flash, schnell120-220~$1.800 GPU

Der Mac Mini M4 Pro 64GB für $1.999 ist der Sweet Spot. Unified Memory bedeutet kein VRAM-Engpass. Läuft 30B MoE Modelle bei nutzbaren Geschwindigkeiten. Amortisiert sich in etwa 8 Monaten gegenüber API-Kosten. Ich habe eine ausführliche Anleitung geschrieben für den Mac Mini als AI-Server falls du den Hardware Deep Dive brauchst.

Setup: 5 Minuten, 4 Schritte

Schritt 1: Ollama installieren

# macOS/Linux
curl -fsSL https://ollama.ai/install.sh | sh

# Für volle Tool-Call Unterstützung, Pre-Release nutzen:
curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.14.3-rc1 sh

Auf macOS kannst du auch von ollama.com/download herunterladen.

Überprüfe dass es läuft:

ollama version
# Sollte 0.14.0 oder höher zeigen

Schritt 2: Ein Modell pullen

# Empfohlener Einstieg — bester Tool-Calling Support
ollama pull glm-4.7-flash

# Alternative Coding Modelle
ollama pull qwen3-coder
ollama pull gpt-oss:20b

GLM-4.7-Flash ist ein 30B Parameter MoE Modell mit nur 3B aktiven Parametern pro Token. Deshalb ist es schnell trotz der großen Gesamtgröße. 128K Context Window. Native Tool-Calling Unterstützung — entscheidend für Claude Codes agentische Schleife.

Schritt 3: Umgebung konfigurieren

Schneller Weg (neu):

ollama launch claude

Das erledigt alles automatisch.

Manueller Weg (mehr Kontrolle):

Füge zu deiner ~/.bashrc, ~/.zshrc, oder ~/.config/fish/config.fish hinzu:

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434

Oder setze sie in Claude Codes Settings-Datei unter ~/.claude/settings.json:

{
  "env": {
    "ANTHROPIC_BASE_URL": "http://localhost:11434",
    "ANTHROPIC_AUTH_TOKEN": "ollama",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
  }
}

Das CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC Flag ist optional aber empfohlen — es verhindert dass Claude Code nach Hause telefoniert und stellt sicher dass alles lokal bleibt.

Schritt 4: Starten

claude --model glm-4.7-flash

Oder inline ohne persistierende Umgebungsvariablen:

ANTHROPIC_AUTH_TOKEN=ollama \
ANTHROPIC_BASE_URL=http://localhost:11434 \
ANTHROPIC_API_KEY="" \
claude --model glm-4.7-flash

Das war's. Claude Code läuft jetzt auf deinem lokalen Modell.

Beste Modelle für lokales agentisches Coding

Nicht alle Modelle funktionieren gut mit Claude Code. Die agentische Schleife braucht Tool-Calling Support, ausreichende Context Windows und Coding-Fähigkeit. Das funktioniert tatsächlich:

ModellParameter (Aktiv)KontextTool CallingAm besten für
GLM-4.7-Flash30B (3B)128KNativBester Allround-Einstieg
Qwen3-Coder-30B30B (3B)256KJaCoding-Spezialist
GPT-OSS-20B20B (dicht)128KJaAllgemeine Aufgaben
Devstral-2-Small24B128KJaLeichtgewichtige Option

Meine Empfehlung: Starte mit GLM-4.7-Flash. Es hat die beste Balance aus Geschwindigkeit, Tool-Calling Zuverlässigkeit und Coding-Qualität für Claude Code Workflows. Ollamas eigene Dokumentation empfiehlt es für die Claude Code Integration.

Newsletter

Wöchentliche Insights zu AI-Architektur. Kein Spam.

Qwen3-Coder-Next ist das bessere reine Coding-Modell, aber GLM-4.7-Flash hat zuverlässigeres Tool-Calling — und Tool-Calling ist das was Claude Code agentisch macht statt nur ein Chatbot zu sein.

Der Reality Check

Ich sage dir ehrlich was du aufgibst.

Was lokal gut funktioniert:

  • Routine-Refactoring und File Edits
  • Test-Generierung
  • Code Review und Analyse
  • Einfache Feature-Implementierungen
  • Dokumentation schreiben
  • Arbeit an sensiblem/proprietärem Code

Was weiterhin Cloud-Modelle braucht:

  • Komplexe Multi-File architektonische Änderungen
  • Tiefes Reasoning über große Codebases
  • Neuartiges Algorithmus-Design
  • Aufgaben die Frontier-Level Intelligenz erfordern

GLM-4.7-Flash erreicht 59.2% auf SWE-bench Verified. Das ist beeindruckend für ein lokales Modell — es schlägt Qwen3-30B (22%) und GPT-OSS-20B (34%). Aber Opus 4.5 spielt immer noch in einer anderen Liga für komplexes Reasoning.

Der praktische Ansatz: nutze lokal für 80% deiner täglichen Coding-Aufgaben. Wechsle zur Cloud API wenn du auf etwas stößt das wirklich Frontier-Intelligenz braucht.

Context Length: Der versteckte Haken

Claude Code frisst Kontext. Jede Datei die es liest, jeder Befehl den es ausführt, jeder Tool Call — alles Tokens. Ollama setzt standardmäßig relativ kurze Context Windows.

Setze mindestens 20K für grundlegende Nutzung, 32K+ für echte Projekte:

# Context Length beim Start von Ollama setzen
OLLAMA_NUM_CTX=32768 ollama serve

Oder in deinem Modelfile:

FROM glm-4.7-flash
PARAMETER num_ctx 32768

Mehr Kontext = mehr RAM. Auf einem 64GB Mac Mini sind 32K Kontext bequem. 64K ist möglich aber schränkt die Modell-Performance ein. 128K braucht 48GB+ allein für den KV-Cache zusätzlich zu den Modell-Gewichten.

DataCamps Tests ergaben dass 20K Kontext die beste Balance zwischen Funktionalität und Geschwindigkeit für Claude Code Workflows bietet. Starte dort und erhöhe nur wenn du an Grenzen stößt.

Häufige Probleme und Lösungen

"Connection refused" Ollama läuft nicht. Starte es:

ollama serve

"Model not found" Installierte Modelle prüfen und den exakten Namen verwenden:

ollama list

Tool Calls schlagen fehl / Streaming Fehler Du brauchst Ollama 0.14.3-rc1 oder neuer. Stabile Releases davor hatten Probleme mit Streaming Tool Calls die Claude Codes agentische Schleife brechen:

curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.14.3-rc1 sh

Langsame Antworten Erwartet auf CPU. Auf Apple Silicon stelle sicher dass das Modell in den Unified Memory passt — jedes Page-Out auf SSD killt die Performance. Prüfe mit:

ollama ps
# Achte auf "100% GPU" in der PROCESSOR Spalte

Überprüfe ob es wirklich lokal ist Trenne die Internetverbindung und führe einen Prompt aus. Wenn du eine Antwort bekommst, bist du komplett offline.

Zwischen lokal und Cloud wechseln

Du musst dich nicht entscheiden. Nutze lokal für tägliche Arbeit, Cloud für komplexe Aufgaben.

Zu lokal wechseln:

export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=ollama
claude --model glm-4.7-flash

Zurück zur Cloud:

unset ANTHROPIC_BASE_URL
unset ANTHROPIC_AUTH_TOKEN
claude  # Nutzt Anthropic API mit deinem API Key

Kostenvergleich

Cloud API (Opus 4.5)Claude Max ($90/Mo)Lokal (Mac Mini)
Hardware$0$0$1.999 einmalig
Monatliche Kosten$200-2.000+$90~$3-5 Strom
Break-Even4-8 Monate
PrivatsphäreCode geht zu AnthropicCode geht zu Anthropic100% lokal
Geschwindigkeit50+ Tok/s50+ Tok/s20-60 Tok/s
IntelligenzFrontierFrontierGut genug für 80%

Ich habe $90/Monat für Claude Max bezahlt und weitere $30-40 für Gemini API. Das sind $130/Monat. Der Mac Mini amortisiert sich in unter einem Jahr, und danach ist es im Prinzip kostenlose KI für immer.

Das Urteil

Mac Mini M4 Pro 64GB + Ollama + GLM-4.7-Flash. Das ist das Setup.

Es wird Opus 4.5 nicht ersetzen für komplexe architektonische Entscheidungen. Es wird dein tägliches Refactoring, Test-Schreiben, Code Review und Dokumentation übernehmen — bei null Grenzkosten, ohne dass Daten deine Maschine verlassen.

Wenn du auch einen persönlichen AI Agent auf deinem Handy willst, verwandelt OpenClaw auf dem gleichen Mac Mini eine Box in deinen Coding-Assistenten und deinen Telegram-Bot zugleich.

Starte mit ollama launch claude. Upgrade dein Modell oder Hardware wenn du an echte Grenzen stößt, nicht an eingebildete.

Newsletter

Wöchentliche Insights zu AI-Architektur

Kein Spam. Jederzeit abbestellbar.

Häufig gestellte Fragen

Ja. Seit Ollama v0.14.0 verbindet sich Claude Code über das Anthropic-kompatible API mit lokalen Modellen. Drei Umgebungsvariablen, ein Befehl, keine API-Kosten.

GLM-4.7-Flash. 30B MoE Modell mit 3B aktiven Parametern, nativem Tool-Calling, 128K Kontext. Ollama empfiehlt es offiziell für Claude Code.

Minimum 24GB für einfache Modelle. 64GB Unified Memory (Mac Mini M4 Pro) ist der Sweet Spot — läuft 30B Modelle bei 20-60 Tokens/Sekunde bequem.

Nein. Lokal bewältigt 80% der täglichen Aufgaben gut — Refactoring, Tests, Code Review. Komplexe Multi-File Architektur und tiefes Reasoning brauchen Opus 4.5 via Cloud.

'ollama launch claude' für automatisches Setup. Oder ANTHROPIC_AUTH_TOKEN=ollama, ANTHROPIC_BASE_URL=http://localhost:11434 setzen, dann 'claude --model glm-4.7-flash'.

Ja. Einmal heruntergeladen läuft das Modell komplett offline. CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 setzen um Netzwerkaufrufe zu verhindern.

GLM-4.7-Flash auf Mac Mini M4 Pro 64GB: 35-60 Tokens/Sekunde. Mac Mini M4 24GB: 20-30 Tokens/Sekunde. RTX 4090: 120-220 Tokens/Sekunde.

Etwa $3-5/Monat Strom auf einem Mac Mini. Hardware $1.999 einmalig. Amortisiert sich gegenüber $90/Monat Claude Max Abo in unter einem Jahr.

Lass uns
vernetzen.

Ich bin immer offen für spannende Diskussionen über Frontend-Architektur, Performance und moderne Web-Stacks.

Schreib mir
Schreib mir