Die Hardware-Revolution
Der Traum vom eigenen 24/7 KI-Assistenten auf dedizierter Hardware ist Realität. OpenClaw (früher Clawdbot, davor Moltbot) hat sich als die Go-To-Lösung für selbst gehostete KI-Agenten etabliert, und der Mac Mini M4 ist zur Hardware der Wahl für Entwickler geworden, die lokale Inferenz ohne Cloud-Abhängigkeit wollen.
Dieser Guide deckt alles ab: Hardware-Entscheidungen, Modell-Auswahl, Ollama-Konfiguration und wie man Claude Code mit lokalen Modellen verbindet. Egal ob es um Privatsphäre, Kostenersparnis oder einfach die Befriedigung geht, Billionen-Parameter-Modelle auf dem Dachboden laufen zu lassen – das ist deine Roadmap.
Warum Mac Mini für lokale KI?
Apple Silicon hat das Spiel für lokale LLM-Inferenz verändert. Die Unified Memory Architektur bedeutet, dass keine Daten zwischen CPU-RAM und GPU-VRAM hin- und hergeschaufelt werden müssen – alles teilt sich einen Pool. Für KI-Workloads, die durch Speicherbandbreite limitiert sind, eliminiert dies den größten Flaschenhals.
Die entscheidenden Vorteile:
- Unified Memory: Kein Kopieren zwischen System-RAM und VRAM. Ein 64GB Mac Mini kann den Großteil davon für die Modell-Inferenz allokieren.
- Energieeffizienz: Ein Mac Mini zieht 20-40W unter Last. Vergleiche das mit einem RTX 4090 System, das 500W+ zieht.
- Lautloser Betrieb: Keine GPU-Lüfter, die dich während der Inferenz anschreien.
- Always-On Ready: Der geringe Stromverbrauch macht den 24/7-Betrieb praktikabel.
Der Mac Mini M4 Pro mit 64GB Unified Memory hat sich als der Sweetspot für ernsthafte lokale KI-Arbeit herausgestellt. Jeff Geerlings Tests zeigen, dass diese Konfiguration 32B-Parameter-Modelle komfortabel mit 11-12 Token pro Sekunde ausführt – schnell genug für Echtzeit-Coding-Assistenz.
Hardware-Empfehlungen nach Use-Case
Budget Setup: Mac Mini M4 (24GB) — ~$800
Was du damit betreiben kannst: 7-8B Parameter Modelle (Llama 3.1 8B, DeepSeek Coder 6.7B, Qwen2.5-Coder 7B) Performance: ~15-20 Token/Sekunde Reality Check: Gut für Experimente, aber du wirst schnell an Speichergrenzen stoßen. Die 24GB-Konfiguration funktioniert, aber du bist auf kleinere Modelle mit aggressiver Quantisierung beschränkt.
Empfohlenes Setup: Mac Mini M4 Pro (64GB) — ~$2,000
Was du damit betreiben kannst: 30-32B Parameter Modelle, MoE Modelle wie Qwen3-Coder-30B-A3B Performance: ~10-15 Token/Sekunde bei 32B Modellen Warum es der Sweetspot ist: 64GB ermöglichen es dir, Qwen2.5-Coder-32B auszuführen – das fähigste Coding-Modell, das auf Consumer-Hardware passt. Du kannst mehrere Modelle gleichzeitig laden und hast immer noch Luft für das Betriebssystem.
Enthusiast Setup: Mac Studio M3 Ultra (256GB-512GB) — $7,000-$10,000
Was du damit betreiben kannst: 70B+ Modelle, DeepSeek-R1 671B (quantisiert), Kimi K2 (mit starker Quantisierung) Performance: ~5-10 Token/Sekunde bei massiven Modellen Die Wahrheit über Kimi K2: Das 1 Billion Parameter Kimi K2 Modell benötigt 250GB+ nur für die Gewichte. Selbst mit einem 512GB Mac Studio läuft man stark quantisierte Versionen (1.8-bit) bei 1-2 Token pro Sekunde. Es funktioniert, ist aber nicht praktikabel für den täglichen Gebrauch.
Das "Porsche Money" Setup: 4x Mac Studio M3 Ultra Cluster — $40,000+
Jeff Geerling demonstrierte Kimi K2 Thinking bei 28-30 Token/Sekunde über vier Mac Studios, verbunden via Thunderbolt 5 unter Nutzung von RDMA und dem Exo Framework. Das ist "Bleeding Edge" – macOS 26.2 führte RDMA über Thunderbolt 5 spezifisch für diesen Anwendungsfall ein.
Wenn du dieses Budget hast, befindest du dich im echten Frontier-Modell-Territorium. Aber für 99% der Entwickler ist der Mac Mini M4 Pro 64GB die richtige Antwort.
Die besten lokalen Modelle für Coding (2026)
Die Modellauswahl ist wichtiger als die Hardware. Hier ist, was für agentische Coding-Aufgaben tatsächlich funktioniert:
Tier 1: Beste Wahl für OpenClaw und Claude Code
GLM-4.7-Flash (9B aktiv, 128K Kontext) Die aktuelle Empfehlung von Ollama für die Claude Code Integration. Exzellenter Tool-Calling-Support, 128K Kontextfenster und läuft gut auf 24GB+ Systemen. Dies ist das Modell für den Start.
ollama pull glm-4.7-flash
Qwen3-Coder-30B-A3B (30B total, 3B aktiv pro Token) Ein Mixture-of-Experts Modell, optimiert für Coding. Die MoE-Architektur bedeutet, dass zur Inferenzzeit nur 3B Parameter aktiv sind, daher ist es trotz der Größe schnell. Unterstützt 256K Kontext und natives Tool-Calling. Benötigt 64GB RAM.
ollama pull qwen3-coder:30b
GPT-OSS-20B OpenAIs erstes Open-Weights Modell. Breite Ökosystem-Unterstützung (Ollama, vLLM, LM Studio) und gutes General-Purpose-Coding. Eine pragmatische Wahl, die "einfach funktioniert".
ollama pull gpt-oss:20b
Tier 2: Exzellent aber Ressourcenhungrig
DeepSeek-Coder-V2 (16B) Starker multilingualer Coding-Support (300+ Sprachen) und exzellent für Aufgaben auf Repository-Ebene. Gut für Entwickler, die mit weniger verbreiteten Sprachen arbeiten.
Codestral-22B Mistrals zweckgebundenes Coding-Modell. 32K Kontext, stark bei strukturierten Outputs. Eine solide Single-GPU Wahl, wenn du den Mistral-Stil bevorzugst.
Tier 3: Frontier (Falls du die Hardware hast)
Kimi K2 / K2.5 (1T Parameter, 32B aktiv) State-of-the-Art agentische Coding-Fähigkeiten, die mit Claude Sonnet 4 konkurrieren. Aber das volle Modell benötigt 250GB+ Speicher und 247GB+ RAM für vernünftige Geschwindigkeiten. Die Unsloth 1.8-bit quantisierte Version (245GB) kann auf einem einzelnen 512GB Mac Studio bei 1-2 Token/Sekunde laufen.
Für die meisten Entwickler ist Kimi K2 besser über die API zugänglich als lokal.
Qwen3-Coder-480B-A35B Alibabas Flaggschiff-Coding-Modell. Zieht in Benchmarks mit Claude Sonnet 4 gleich. Benötigt Multi-GPU-Cluster oder Mac Studio Cluster – keine Option für Consumer.
OpenClaw Setup: Schritt für Schritt
OpenClaw ist ein Gateway, das KI-Modelle mit Messaging-Plattformen (WhatsApp, Telegram, Slack, Discord, iMessage) verbindet. Du schreibst ihm wie einem Kollegen, und es kann im Web surfen, Befehle ausführen, Dateien verwalten – alles, was eine Person an einer Tastatur tun könnte.
Voraussetzungen
- Node.js 22+
- Ollama installiert und laufend
- Ein Messaging-Plattform-Account (Telegram ist für den Start am einfachsten)
Installation
# Installiere OpenClaw global
npm install -g openclaw@latest
# Starte den Onboarding-Wizard
openclaw onboard --install-daemon
Der Wizard führt dich durch:
- Gateway-Konfiguration (Lokal vs. Remote)
- Modell-Provider-Auswahl
- Channel-Setup (WhatsApp, Telegram, etc.)
- Skills-Konfiguration
Ollama als Modell-Provider konfigurieren
Wähle während des Onboardings "OpenAI-kompatibel" als Provider und konfiguriere dann:
{
"agent": {
"model": "ollama/glm-4.7-flash",
"baseUrl": "http://localhost:11434/v1"
}
}
Verbindung zu Telegram
- Öffne Telegram und suche nach @BotFather
- Sende
/newbotund folge den Anweisungen - Kopiere den Bot-Token, den BotFather bereitstellt
- Füge ihn zu deiner OpenClaw Config hinzu:
{
"channels": {
"telegram": {
"botToken": "DEIN_BOT_TOKEN"
}
}
}
Starte das Gateway neu: openclaw gateway restart
Wichtig: Kontext-Länge
OpenClaw benötigt mindestens 64K Token Kontextlänge. Überprüfe bei Ollama, ob dein Modell dies unterstützt:
ollama show glm-4.7-flash --modelfile
Falls nötig, erstelle ein custom Modelfile um den Kontext zu erhöhen:
FROM glm-4.7-flash
PARAMETER num_ctx 65536
Claude Code + Ollama: Lokales Agentic Coding
Claude Code ist Anthropics terminal-basierter Coding-Agent. Seit Ollama v0.14.0 (Januar 2026) kannst du Claude Code gegen lokale Modelle via Ollamas Anthropic-kompatibler API laufen lassen.
Setup
Installiere Claude Code:
curl -fsSL https://claude.ai/install.sh | bash
Konfiguriere Umgebungsvariablen:
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL="http://localhost:11434"
Oder füge dies zu ~/.zshrc / ~/.bashrc hinzu für Persistenz.
Claude Code mit lokalen Modellen ausführen
One-Liner:
ollama launch claude
Oder direkt ausführen:
claude --model qwen3-coder:30b
Der Hybrid-Ansatz: Wann man was nutzt
Das klügste Setup ist nicht rein lokal oder rein Cloud – es ist die Nutzung des richtigen Tools für jede Aufgabe:
Nutze lokale Modelle für:
- Prototyping und Iteration
- Sensiblen Code, der deine Maschine nicht verlassen darf
- Lernen und Experimentieren
- Offline-Entwicklung
Nutze Cloud APIs für:
- Produktions-kritische Code Reviews
- Komplexe Architektur-Entscheidungen
- Aufgaben, die State-of-the-Art Reasoning erfordern
- Wenn Geschwindigkeit zählt
OpenClaw und Claude Code unterstützen beide Modell-Routing. Du kannst Fallbacks konfigurieren:
{
"agent": {
"model": "ollama/glm-4.7-flash",
"fallback": "anthropic/claude-sonnet-4"
}
}
Das Fazit
Der lokale KI-Stack in 2026 ist wirklich leistungsfähig. Ein Mac Mini M4 Pro, der OpenClaw mit Qwen3-Coder-30B betreibt, gibt dir einen 24/7 KI-Assistenten, der:
- Niemals deinen Code in die Cloud sendet
- Nach dem Hardware-Kauf nichts mehr kostet
- Offline funktioniert
- Sich in deine bestehenden Messaging-Apps integriert
Ist es so gut wie Claude Opus 4.5 via API? Nein. Ist es gut genug für die meisten Entwicklungsaufgaben? Absolut.
Die Versuchung, gestapelte Mac Studios zu kaufen, ist real – aber für die meisten Entwickler ist ein einzelner Mac Mini M4 Pro mit 64GB die pragmatische Wahl. Fang dort an und rüste auf, wenn du an tatsächliche Grenzen stößt, nicht an eingebildete.