Question 1

MCP oder direkte API — wann ist welche Variante zuverlässiger für Tool-Calls?

Accepted Answer

MCP gewinnt bei Standardisierung: ein Wire-Format, neue Agenten lassen sich in existierende Tool-Surfaces einklinken, Modelle ohne Integrations-Rewrite tauschen. Direkte API-Integration gewinnt bei Reliability — wenn der MCP-Server Felder oder Endpoints nicht abbildet, wenn du custom Retry/Error-Semantik brauchst, wenn Tool-Call-Latency im kritischen Pfad sitzt, oder wenn vendor-spezifische Edge-Cases (Pagination-Quirks, idempotency keys, partial responses) vom MCP-Wrapper verschluckt werden. Faustregel: MCP für Breite, direkte Integration für die 2-3 kritischen Tools die nicht flaky sein dürfen. Die meisten Production-Setups landen gemixt.

Question 2

Was ist der Harness Layer in einem AI Agent — und warum zählt er mehr als das Modell?

Accepted Answer

Das Harness ist alles um das LLM herum, was es echte Arbeit machen lässt — Tool-Schemas, Validierung, strukturiertes Feedback, Retry-Logik, Sicherheits-Limits. Das Modell wählt Züge; das Harness definiert welche Züge überhaupt möglich sind und was passiert wenn einer fehlschlägt. Zwei Systeme auf demselben Modell performen komplett unterschiedlich abhängig von der Harness-Qualität. Da liegt die eigentliche Engineering-Hebelwirkung.

Question 3

AI Agent vs RAG — was brauchen wir wirklich?

Accepted Answer

RAG holt Kontext für einen einzelnen LLM-Call. Ein Agent loopt: handelt, beobachtet, entscheidet, handelt wieder — meist mit mehreren Tool-Calls und externem State-Change. Wenn das Problem ist „Fragen über unsere Docs beantworten“ → RAG. Wenn es „einen mehrstufigen Workflow mit unseren Systemen ausführen“ ist → Agent. Die meisten Production-Setups nutzen beides — RAG als Tool innerhalb der Agent-Surface.

Question 4

Warum scheitern AI-Agenten, die in der Demo gut waren, in Production?

Accepted Answer

Kaskadierende Fehler. 95% Erfolgsrate pro Schritt fällt nach 20 Schritten auf 36%. Demo-Pfade laufen 3-5 Schritte unter kontrollierten Bedingungen; Production-Loops laufen 20+ Schritte über messy reale Daten. Der Fix liegt im Harness: Verification pro Schritt, strukturierte Retries mit Backoff, harte Stops bei unsicheren Branches, Eskalation an Menschen an Risiko-Stellen. Modelle werden nicht zuverlässig — Harnesses machen sie zuverlässig.

Question 5

Was ist MCP (Model Context Protocol) — und sollten wir darauf standardisieren?

Accepted Answer

MCP ist ein Standard wie Agenten sich mit Tools und Datenquellen verbinden. USB-C für Agenten — ein Wire-Format, viele Backends. Anthropic, OpenAI und alle großen Frameworks unterstützen es inzwischen. Wenn ihr Agenten baut die mehrere interne Systeme erreichen müssen — ja, auf MCP standardisieren. Wenn ihr einen eng gescopten Agent gegen eine API baut, ist native Integration weiter ok. Kein Migrieren von funktionierendem Code ohne Grund.

Question 6

Wie misst ihr ob ein Agent „production-ready“ ist? (Evals, Guardrails, Trajectory-Tests)

Accepted Answer

Drei Schichten. (1) Trajectory-Tests — komplette Agent-Runs gegen kanonische Inputs replayen, Assertions auf Zwischenzustände, nicht nur Final-Outputs. (2) Tool-Call-Evals — pro Tool: Happy-Path, strukturierter Error-Path, adversarial Inputs. (3) Production-Telemetrie — jeder Tool-Call, Retry, Eskalation und Per-Loop-Cost geloggt. Production-ready heißt: Trajectory-Tests >95%, keine unhandled Tool-Errors im 7-Tage-Prod-Fenster, Cost-per-Task innerhalb Budget-Envelope. Vibes sind keine Definition of Done.

Marco Patzelt — AI Agent Engineer.

Harness Layer.
Context · Tools · Memory · Sandbox · Feedback.

Context
Engineering

Token-Budget als Designparameter

Strukturierte Wahrnehmung

Harness Runtime

Agent Memory

Tools · Sandbox · Feedback

Stack & Ecosystem.

Vom Schema zum Production-Code.

Software & Integration Engineer.

Full Ownership

Real-time Sync Middleware

Lead-Capture & Qualification API

Smart Translation Caching

Multi-System Integration

EU Production Infrastructure

SEO- & Paid-Channel-Fleet

Marketing-Plattform
↔ Dynamics 365.

Die Aufgabe

Die Umsetzung

Nebenprojekte, öffentlich.

Brunnfeld

Sales Agent

Agent Factory

Code Commander

Die offensichtlichen Fragen.

Notizen vom Shippen.

Code w/ Claude London 2026: Managed Agents, Memory + Dreaming, Evals

Claude Opus 4.8 /ultracode: Ich hab einen 200-Agenten-Schwarm laufen lassen

Brunnfeld: 1000 LLM-Agenten, null Anweisungen

Lass uns vernetzen.