Wie hat Claude Code über 50 Repos über Nacht gebaut?

Mit einem Loop-Pattern inspiriert von Karpathys autoresearch: Pain Points recherchieren, mit 6-Punkte-Venture-Score bewerten, Seed Harness forken, bauen, validieren, committen und wiederholen. Ein Restart-Wrapper handhabt Context-Limits.

Was ist der Venture Score für KI-Agent-Entwicklung?

Eine 6-Punkte binäre Checkliste: 3 Punkte für Research-Qualität (Signal, Lücke, Machbarkeit) und 3 für Build-Qualität (installiert, startet, funktioniert). Bauen bei Research 3/3, shippen bei gesamt 5/6 oder höher.

Was ist der 2-3-Tools-Constraint für KI-Agents?

Jeder Agent nutzt genau 2-3 Tools: Gather (Input holen), Process (analysieren), Output (Ergebnis liefern). Bei 4+ Tools ist das Problem zu breit. Dieser Constraint hielt über alle 50+ Repos ohne Ausnahme.

Wie akkumuliert Forschung über KI-Agent-Sessions?

Jede Session liest das vorherige Research-Log. Alle 5 Builds schreibt der Agent eine Meta-Reflexion. Ab Repo 20 stieg die Trefferquote — der Agent lernte welche Problemkategorien höher scoren und vermied Überschneidungen.

Welche Arten von KI-Agents wurden gebaut?

Developer Tools (Dependency-Analyzer, NPM-Trust-Checker), Security-Agents (Scam-Detektoren, CVE-Monitore), Research-Agents (Company-Briefings, Konkurrenzanalyse) und Produktivitäts-Tools (Meeting-Vorbereitung, Doku-Generatoren).

Wie handhabt man Claude Code Context-Limits?

Ein 28-Zeilen Bash-Wrapper-Skript. Wenn der Context voll ist, committed der Agent alles und schreibt eine Übergabenotiz. Der Wrapper startet Claude Code neu, liest die Übergabe und macht weiter. Null Informationsverlust über dutzende Neustarts.

Claude Code lief über Nacht — 50+ KI-Agent-Repos von Null

Karpathy hat mit autoresearch etwas verschenkt, das die meisten noch nicht verstanden haben. Nicht den Code — das Pattern. Gib einer KI eine Schleife, eine Metrik und eine einzige Anweisung: "NEVER STOP." Er hat damit neuronale Netze optimiert. Ich habe es auf ein anderes Problem gerichtet.

Was wenn der Agent keine Loss Function optimiert — sondern einen Venture Score? Statt train.py forkt er ein Seed Harness. Statt einer GPU hat er einen API-Key-Ring.

Ich ging schlafen. Als ich aufwachte, waren über 50 Repos da — gebaut, committed und startbereit.

Das Pattern ist stupide einfach

Ich habe über Karpathys autoresearch Pattern geschrieben — die Erkenntnis ist, dass Constraints Autonomie ermöglichen, nicht einschränken. Die autoresearch-Schleife funktioniert, weil jede Komponente begrenzt ist:

Research — Reddit, HN, GitHub nach Pain Points durchsuchen
Score — SIGNAL (3+ Leute wollen es?) + GAP (kein freies Tool?) + FEASIBLE (2-3 Tools reichen?)
Build — Seed Harness forken, spezialisierte Tools schreiben, System Prompt anpassen
Validate — Läuft npm install && npm run dev? Liefert ein Test-Prompt etwas Brauchbares?
Commit — Alles committen, in results.tsv loggen
GOTO 1

Das ist alles. Die gesamte Architektur passt in eine einzige Markdown-Datei namens program.md. Es ist die einzige Datei, die ein Mensch anfasst. Die Schleife lief über mehrere Sessions. Sie stoppte nicht bei 5 Agents. Sie forschte weiter, bewertete weiter, baute weiter. 50+ Repos später hielt das Pattern immer noch.

Drei Schichten, kein Framework

Das System hat drei Komponenten. Kein LangChain, kein CrewAI, keine Abstraktionsschichten.

Schicht 1: Claude Code (der Meta-Agent)

Claude Code ist Researcher und Builder. Es durchsucht Reddit, Hacker News, GitHub und Twitter nach echten Schmerzpunkten. Es liest Threads, zählt wie viele Leute sich beschweren, prüft ob gute kostenlose Lösungen existieren und bewertet jedes Problem auf einer 6-Punkte-Checkliste.

Schicht 2: Das Seed Harness (das Template)

Eine minimale agentische KI-Chat-App — handgeschriebene Orchestration-Schleife, modellagnostische Provider-Schicht, Streaming-UI. Jeder Agent, den das System baut, ist ein Fork dieses Harness mit 2-3 spezialisierten Tools. Das meine ich mit Bare Metal statt Frameworks — das Template ist klein genug, um es in 10 Minuten zu verstehen.

Schicht 3: Composio (die API-Schicht)

Statt einer hardcodierten Integration pro Service (GitHub, Reddit, Google) hat das Harness 3 Meta-Tools, die gebauten Agents ermöglichen, zur Laufzeit jedes der 250k+ API-Tools dynamisch zu entdecken und zu nutzen. Ein API-Key ersetzt alle.

Der Venture Score

Scoring ist simpel. 6 Punkte, binäre Checkliste:

Research-Qualität (3 Punkte):

SIGNAL — 3+ Leute fragen online nach dieser Lösung
GAP — kein gutes kostenloses Tool existiert
FEASIBLE — lösbar mit 2-3 Tools

Build-Qualität (3 Punkte):

INSTALLS — npm install läuft ohne Fehler
RUNS — npm run dev startet die App
WORKS — ein Test-Prompt liefert etwas Brauchbares

Bauen wenn Research = 3/3. Shippen wenn gesamt >= 5/6.

Das gleiche Prinzip wie Karpathys val_bpb — eine einzelne, messbare Metrik, die der Agent ohne menschliches Urteil auswerten kann. Keine subjektiven Qualitätsbewertungen. Kein "fühlt sich das gut an." Binäre Checks. Bei über 50 Repos hat sich das Scoring-System bewiesen — es filterte aggressiv. Für jedes Repo das shipped wurde, wurden 2-3 Ideen schon in der Research-Phase verworfen. Der Score verhinderte, dass das System Müll baut.

Das Context-Limit-Problem

Claude Code erreicht Context-Limits nach 2-4 Stunden. Das ist der echte Engpass — nicht Kosten, nicht Geschwindigkeit. Context-Window-Erschöpfung killt die Schleife.

Der Fix ist ein 28-Zeilen Bash-Skript. Wenn der Context voll ist, committed der Agent alles und schreibt eine Übergabenotiz in research/next-session.md. Das Wrapper-Skript startet Claude Code neu, der die Übergabe liest und dort weitermacht, wo er aufgehört hat.

Unendliche Sessions aus endlichem Context. Die Forschung akkumuliert, weil jede Session liest, was die vorherigen Sessions gelernt haben. Das ist Bounded Autonomy in der Praxis — der Agent operiert innerhalb harter Constraints, wird aber über die Zeit besser. Bei 50+ Repos lief der Restart-Wrapper dutzende Male. Jeder Neustart war nahtlos — null Informationsverlust.

Was gebaut wurde

Über 50 Repos in verschiedenen Kategorien:

Newsletter

Wöchentliche Insights zu AI-Architektur. Kein Spam.

Developer Tools — Dependency-Analyzer, Changelog-Summarizer, NPM-Trust-Checker, Repo-Health-Scanner, Code-Review-Assistenten, Migrations-Planer.

Security — Job-Scam-Detektoren, Phishing-Analyzer, CVE-Monitore, Supply-Chain-Auditoren.

Research — Company-Briefing-Generatoren, Konkurrenzanalyse-Agents, Marktlücken-Finder, Trend-Tracker.

Produktivität — Meeting-Vorbereitungs-Agents, E-Mail-Entwurfshelfer, Dokumentations-Generatoren, Onboarding-Assistenten.

Jeder ist eine eigenständige Next.js-App. Klonen, .env hinzufügen, npm install && npm run dev starten — und du hast einen funktionierenden KI-Agent in 60 Sekunden. Zwei API-Keys: einer für das LLM (OpenRouter), einer für API-Zugriff (Composio).

Nicht alle 50+ sind produktionsreif. Aber jedes einzelne installiert, startet und antwortet auf einen Test-Prompt. Der Venture Score garantierte diese Baseline. Die Qualitätsverteilung sieht aus wie ein Power Law — eine Handvoll ist wirklich nützlich, die meisten sind solide MVPs, und das untere Ende sind enge Tools die echte, aber kleine Probleme lösen.

Der 2-3-Tools-Constraint

Jeder Agent folgt dem gleichen Muster:

Tool 1: GATHER — Rohe Eingabe aus der Welt holen
Tool 2: PROCESS — Transformieren, analysieren oder anreichern
Tool 3: OUTPUT — Ergebnis liefern

Minimum 2 Tools, Maximum 3. Wenn du 4+ brauchst, ist das Problem zu breit. Dieser Constraint stammt direkt aus Karpathys Einfachheitskriterium — einfacher schlägt clever bei gleicher Leistung.

Der Constraint erzwingt Fokus. Ein Dependency-Analyzer muss nicht Changelogs holen UND Versionen vergleichen UND Kompatibilitätschecks laufen lassen UND Migrationsleitfäden generieren. Er holt, fasst zusammen und flaggt Dringlichkeit. Drei Tools. Fertig. Das hielt bei über 50 Repos. Der Agent musste den Constraint nie verletzen — er wurde nur besser darin, Probleme in die richtigen 2-3 Tools zu zerlegen.

Forschung akkumuliert

Das hat mich überrascht. Das Research-Log wuchs mit jeder Session. Der Agent las seine eigene Historie bevor er startete — er wusste was er versucht hatte, was gescheitert war und welche Muster funktionieren. Alle 5 Builds schrieb er eine Meta-Reflexion, die seine eigene Leistung analysiert.

Ab Repo 20 war die Trefferquote merklich höher. Der Agent schlug keine Tools mehr vor, die sich mit existierenden überschnitten. Er begann Nischen zu identifizieren statt breiter Kategorien. Er lernte, dass Developer Tools höher scoreten als Consumer Tools. Er lernte, dass Security-nahe Probleme größere Lücken hatten als Produktivitäts-Probleme.

Gescheiterte Builds waren nicht verschwendet. Die Forschung dahinter war dokumentiert — Signale, Lücken, existierende Lösungen, Nutzerzitate. Selbst ein gescheiterter Build produzierte einen Wissensbank-Eintrag, der zukünftige Forschung verbessert.

Alles liegt auf der Festplatte, alles ist committed. Nichts existiert nur im Context der KI. cat results.tsv gibt dir morgens das vollständige Bild.

Was das tatsächlich beweist

Es geht nicht um die 50+ Repos. Das sind Outputs. Der interessante Teil ist das Pattern:

Schleife + Metrik + "never stop" skaliert. Die Architektur brach bei 50 nicht zusammen. Sie wurde besser. Die Constraints erledigten die Arbeit.
Forschung akkumuliert über Sessions. Der Agent wurde tatsächlich besser in der Problemauswahl. Die Meta-Reflexionen waren keine Deko — sie waren echte Feedback-Schleifen.
2-3 Tools ist der richtige Constraint bei jeder Größenordnung. Gather, Process, Output deckte alles ab, was das System für 50+ verschiedene Probleme brauchte. Mehr Tools bedeutet mehr Komplexität bedeutet schlechtere Ergebnisse.
Context-Limits sind der echte Engpass. Nicht Kosten, nicht Geschwindigkeit. Der Restart-Wrapper lief dutzende Male und verlor nie den Zustand. Ein Modell mit unendlichem Context bräuchte ihn nicht — aber der Workaround hält.
API-Vereinheitlichung ist ein Cheat Code. Hardcodierte API-Integrationen durch Meta-Tools zu ersetzen, die zur Laufzeit jede API entdecken und nutzen können, war der Schlüssel. Ohne Composio bräuchte jeder Agent eigenen Integrationscode. Mit Composio beschreibt der Agent einfach was er braucht.

Das Ganze läuft auf zwei API-Keys und einer Markdown-Datei. Richte Claude Code auf program.md, geh schlafen, wach auf mit Repos.

Das Pattern ist übertragbar. Karpathy hat es für Training-Runs gebaut. Ich habe es auf Agent-Building angewandt. Jemand anderes könnte es auf Marktforschung, Security-Auditing oder Content-Erstellung anwenden — auf alles, wo man einen Score und eine Schleife definieren kann. Die Architektur ändert sich nicht. Nur die Metrik. Ich habe nur bewiesen, dass es bei 50x der ursprünglichen Größenordnung funktioniert.

Claude Code lief über Nacht — 50+ KI-Agent-Repos von Null

Das Pattern ist stupide einfach

Drei Schichten, kein Framework

Der Venture Score

Das Context-Limit-Problem

Was gebaut wurde

Der 2-3-Tools-Constraint

Forschung akkumuliert

Was das tatsächlich beweist

Wöchentliche Insights zu AI-Architektur

Häufig gestellte Fragen

Lass uns
vernetzen.

Das Pattern ist stupide einfach

Drei Schichten, kein Framework

Der Venture Score

Das Context-Limit-Problem

Was gebaut wurde

Der 2-3-Tools-Constraint

Forschung akkumuliert

Was das tatsächlich beweist

Wöchentliche Insights zu AI-Architektur

Häufig gestellte Fragen

Lass uns vernetzen.

Lass uns
vernetzen.