Marco Patzelt
Back to Overview
2. Februar 2026

OpenClaw + Mac Mini: Der ultimative Guide für eigene KI-Agenten in 2026

Ein technischer Deep Dive zur Einrichtung von OpenClaw auf einem Mac Mini M4. Wir behandeln Hardware-Anforderungen, lokale Modelle (Kimi K2, Qwen3) und die Integration von Claude Code via Ollama. Keine Cloud-Kosten, 100% Privatsphäre.

Die Hardware-Revolution

Der Traum vom eigenen 24/7 KI-Assistenten auf dedizierter Hardware ist Realität. OpenClaw (früher Clawdbot, davor Moltbot) hat sich als die Go-To-Lösung für selbst gehostete KI-Agenten etabliert, und der Mac Mini M4 ist zur Hardware der Wahl für Entwickler geworden, die lokale Inferenz ohne Cloud-Abhängigkeit wollen.

Dieser Guide deckt alles ab: Hardware-Entscheidungen, Modell-Auswahl, Ollama-Konfiguration und wie man Claude Code mit lokalen Modellen verbindet. Egal ob es um Privatsphäre, Kostenersparnis oder einfach die Befriedigung geht, Billionen-Parameter-Modelle auf dem Dachboden laufen zu lassen – das ist deine Roadmap.

Warum Mac Mini für lokale KI?

Apple Silicon hat das Spiel für lokale LLM-Inferenz verändert. Die Unified Memory Architektur bedeutet, dass keine Daten zwischen CPU-RAM und GPU-VRAM hin- und hergeschaufelt werden müssen – alles teilt sich einen Pool. Für KI-Workloads, die durch Speicherbandbreite limitiert sind, eliminiert dies den größten Flaschenhals.

Die entscheidenden Vorteile:

  • Unified Memory: Kein Kopieren zwischen System-RAM und VRAM. Ein 64GB Mac Mini kann den Großteil davon für die Modell-Inferenz allokieren.
  • Energieeffizienz: Ein Mac Mini zieht 20-40W unter Last. Vergleiche das mit einem RTX 4090 System, das 500W+ zieht.
  • Lautloser Betrieb: Keine GPU-Lüfter, die dich während der Inferenz anschreien.
  • Always-On Ready: Der geringe Stromverbrauch macht den 24/7-Betrieb praktikabel.

Der Mac Mini M4 Pro mit 64GB Unified Memory hat sich als der Sweetspot für ernsthafte lokale KI-Arbeit herausgestellt. Jeff Geerlings Tests zeigen, dass diese Konfiguration 32B-Parameter-Modelle komfortabel mit 11-12 Token pro Sekunde ausführt – schnell genug für Echtzeit-Coding-Assistenz.

Hardware-Empfehlungen nach Use-Case

Budget Setup: Mac Mini M4 (24GB) — ~$800

Was du damit betreiben kannst: 7-8B Parameter Modelle (Llama 3.1 8B, DeepSeek Coder 6.7B, Qwen2.5-Coder 7B) Performance: ~15-20 Token/Sekunde Reality Check: Gut für Experimente, aber du wirst schnell an Speichergrenzen stoßen. Die 24GB-Konfiguration funktioniert, aber du bist auf kleinere Modelle mit aggressiver Quantisierung beschränkt.

Empfohlenes Setup: Mac Mini M4 Pro (64GB) — ~$2,000

Was du damit betreiben kannst: 30-32B Parameter Modelle, MoE Modelle wie Qwen3-Coder-30B-A3B Performance: ~10-15 Token/Sekunde bei 32B Modellen Warum es der Sweetspot ist: 64GB ermöglichen es dir, Qwen2.5-Coder-32B auszuführen – das fähigste Coding-Modell, das auf Consumer-Hardware passt. Du kannst mehrere Modelle gleichzeitig laden und hast immer noch Luft für das Betriebssystem.

Enthusiast Setup: Mac Studio M3 Ultra (256GB-512GB) — $7,000-$10,000

Was du damit betreiben kannst: 70B+ Modelle, DeepSeek-R1 671B (quantisiert), Kimi K2 (mit starker Quantisierung) Performance: ~5-10 Token/Sekunde bei massiven Modellen Die Wahrheit über Kimi K2: Das 1 Billion Parameter Kimi K2 Modell benötigt 250GB+ nur für die Gewichte. Selbst mit einem 512GB Mac Studio läuft man stark quantisierte Versionen (1.8-bit) bei 1-2 Token pro Sekunde. Es funktioniert, ist aber nicht praktikabel für den täglichen Gebrauch.

Das "Porsche Money" Setup: 4x Mac Studio M3 Ultra Cluster — $40,000+

Jeff Geerling demonstrierte Kimi K2 Thinking bei 28-30 Token/Sekunde über vier Mac Studios, verbunden via Thunderbolt 5 unter Nutzung von RDMA und dem Exo Framework. Das ist "Bleeding Edge" – macOS 26.2 führte RDMA über Thunderbolt 5 spezifisch für diesen Anwendungsfall ein.

Wenn du dieses Budget hast, befindest du dich im echten Frontier-Modell-Territorium. Aber für 99% der Entwickler ist der Mac Mini M4 Pro 64GB die richtige Antwort.

Die besten lokalen Modelle für Coding (2026)

Die Modellauswahl ist wichtiger als die Hardware. Hier ist, was für agentische Coding-Aufgaben tatsächlich funktioniert:

Tier 1: Beste Wahl für OpenClaw und Claude Code

GLM-4.7-Flash (9B aktiv, 128K Kontext) Die aktuelle Empfehlung von Ollama für die Claude Code Integration. Exzellenter Tool-Calling-Support, 128K Kontextfenster und läuft gut auf 24GB+ Systemen. Dies ist das Modell für den Start.

ollama pull glm-4.7-flash

Qwen3-Coder-30B-A3B (30B total, 3B aktiv pro Token) Ein Mixture-of-Experts Modell, optimiert für Coding. Die MoE-Architektur bedeutet, dass zur Inferenzzeit nur 3B Parameter aktiv sind, daher ist es trotz der Größe schnell. Unterstützt 256K Kontext und natives Tool-Calling. Benötigt 64GB RAM.

ollama pull qwen3-coder:30b

GPT-OSS-20B OpenAIs erstes Open-Weights Modell. Breite Ökosystem-Unterstützung (Ollama, vLLM, LM Studio) und gutes General-Purpose-Coding. Eine pragmatische Wahl, die "einfach funktioniert".

ollama pull gpt-oss:20b

Tier 2: Exzellent aber Ressourcenhungrig

DeepSeek-Coder-V2 (16B) Starker multilingualer Coding-Support (300+ Sprachen) und exzellent für Aufgaben auf Repository-Ebene. Gut für Entwickler, die mit weniger verbreiteten Sprachen arbeiten.

Codestral-22B Mistrals zweckgebundenes Coding-Modell. 32K Kontext, stark bei strukturierten Outputs. Eine solide Single-GPU Wahl, wenn du den Mistral-Stil bevorzugst.

Tier 3: Frontier (Falls du die Hardware hast)

Kimi K2 / K2.5 (1T Parameter, 32B aktiv) State-of-the-Art agentische Coding-Fähigkeiten, die mit Claude Sonnet 4 konkurrieren. Aber das volle Modell benötigt 250GB+ Speicher und 247GB+ RAM für vernünftige Geschwindigkeiten. Die Unsloth 1.8-bit quantisierte Version (245GB) kann auf einem einzelnen 512GB Mac Studio bei 1-2 Token/Sekunde laufen.

Für die meisten Entwickler ist Kimi K2 besser über die API zugänglich als lokal.

Qwen3-Coder-480B-A35B Alibabas Flaggschiff-Coding-Modell. Zieht in Benchmarks mit Claude Sonnet 4 gleich. Benötigt Multi-GPU-Cluster oder Mac Studio Cluster – keine Option für Consumer.

OpenClaw Setup: Schritt für Schritt

OpenClaw ist ein Gateway, das KI-Modelle mit Messaging-Plattformen (WhatsApp, Telegram, Slack, Discord, iMessage) verbindet. Du schreibst ihm wie einem Kollegen, und es kann im Web surfen, Befehle ausführen, Dateien verwalten – alles, was eine Person an einer Tastatur tun könnte.

Voraussetzungen

  • Node.js 22+
  • Ollama installiert und laufend
  • Ein Messaging-Plattform-Account (Telegram ist für den Start am einfachsten)

Installation

# Installiere OpenClaw global
npm install -g openclaw@latest

# Starte den Onboarding-Wizard
openclaw onboard --install-daemon

Der Wizard führt dich durch:

  1. Gateway-Konfiguration (Lokal vs. Remote)
  2. Modell-Provider-Auswahl
  3. Channel-Setup (WhatsApp, Telegram, etc.)
  4. Skills-Konfiguration

Ollama als Modell-Provider konfigurieren

Wähle während des Onboardings "OpenAI-kompatibel" als Provider und konfiguriere dann:

{
  "agent": {
    "model": "ollama/glm-4.7-flash",
    "baseUrl": "http://localhost:11434/v1"
  }
}

Verbindung zu Telegram

  1. Öffne Telegram und suche nach @BotFather
  2. Sende /newbot und folge den Anweisungen
  3. Kopiere den Bot-Token, den BotFather bereitstellt
  4. Füge ihn zu deiner OpenClaw Config hinzu:
{
  "channels": {
    "telegram": {
      "botToken": "DEIN_BOT_TOKEN"
    }
  }
}

Starte das Gateway neu: openclaw gateway restart

Wichtig: Kontext-Länge

OpenClaw benötigt mindestens 64K Token Kontextlänge. Überprüfe bei Ollama, ob dein Modell dies unterstützt:

ollama show glm-4.7-flash --modelfile

Falls nötig, erstelle ein custom Modelfile um den Kontext zu erhöhen:

FROM glm-4.7-flash
PARAMETER num_ctx 65536

Claude Code + Ollama: Lokales Agentic Coding

Claude Code ist Anthropics terminal-basierter Coding-Agent. Seit Ollama v0.14.0 (Januar 2026) kannst du Claude Code gegen lokale Modelle via Ollamas Anthropic-kompatibler API laufen lassen.

Setup

Installiere Claude Code: curl -fsSL https://claude.ai/install.sh | bash

Konfiguriere Umgebungsvariablen:

export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL="http://localhost:11434"

Oder füge dies zu ~/.zshrc / ~/.bashrc hinzu für Persistenz.

Claude Code mit lokalen Modellen ausführen

One-Liner: ollama launch claude

Oder direkt ausführen: claude --model qwen3-coder:30b

Der Hybrid-Ansatz: Wann man was nutzt

Das klügste Setup ist nicht rein lokal oder rein Cloud – es ist die Nutzung des richtigen Tools für jede Aufgabe:

Nutze lokale Modelle für:

  • Prototyping und Iteration
  • Sensiblen Code, der deine Maschine nicht verlassen darf
  • Lernen und Experimentieren
  • Offline-Entwicklung

Nutze Cloud APIs für:

  • Produktions-kritische Code Reviews
  • Komplexe Architektur-Entscheidungen
  • Aufgaben, die State-of-the-Art Reasoning erfordern
  • Wenn Geschwindigkeit zählt

OpenClaw und Claude Code unterstützen beide Modell-Routing. Du kannst Fallbacks konfigurieren:

{
  "agent": {
    "model": "ollama/glm-4.7-flash",
    "fallback": "anthropic/claude-sonnet-4"
  }
}

Das Fazit

Der lokale KI-Stack in 2026 ist wirklich leistungsfähig. Ein Mac Mini M4 Pro, der OpenClaw mit Qwen3-Coder-30B betreibt, gibt dir einen 24/7 KI-Assistenten, der:

  • Niemals deinen Code in die Cloud sendet
  • Nach dem Hardware-Kauf nichts mehr kostet
  • Offline funktioniert
  • Sich in deine bestehenden Messaging-Apps integriert

Ist es so gut wie Claude Opus 4.5 via API? Nein. Ist es gut genug für die meisten Entwicklungsaufgaben? Absolut.

Die Versuchung, gestapelte Mac Studios zu kaufen, ist real – aber für die meisten Entwickler ist ein einzelner Mac Mini M4 Pro mit 64GB die pragmatische Wahl. Fang dort an und rüste auf, wenn du an tatsächliche Grenzen stößt, nicht an eingebildete.

Häufig gestellte Fragen

Nur wenn du einen Mac Studio mit 512GB RAM hast. Auf allem anderen bekommst du nur 1-2 Token/Sekunde mit stark quantisierten Versionen. Die API ist meist besser.

Der Mac Mini M4 Pro mit 64GB Unified Memory ist der Sweetspot. Er führt 32B-Modelle mit brauchbaren 10-15 Token/Sekunde aus und kostet ca. 2.000 $.

Ja. Seit Januar 2026 unterstützt Claude Code die Ollama API. Setze ANTHROPIC_BASE_URL auf http://localhost:11434 und nutze Modelle wie GLM-4.7.

OpenClaw ist ein Open-Source KI-Assistent, der Messaging-Apps wie Telegram mit lokalen LLMs verbindet. Er läuft auf eigener Hardware ohne Cloud-Kosten.

Lass uns
vernetzen.

Ich bin immer offen für spannende Diskussionen über Frontend-Architektur, Performance und moderne Web-Stacks.

Schreib mir
Schreib mir