Karpathy hat mit autoresearch etwas verschenkt, das die meisten noch nicht verstanden haben. Nicht den Code — das Pattern. Gib einer KI eine Schleife, eine Metrik und eine einzige Anweisung: "NEVER STOP." Er hat damit neuronale Netze optimiert. Ich habe es auf ein anderes Problem gerichtet.
Was wenn der Agent keine Loss Function optimiert — sondern einen Venture Score? Statt train.py forkt er ein Seed Harness. Statt einer GPU hat er einen API-Key-Ring.
Ich ging schlafen. Als ich aufwachte, waren über 50 Repos da — gebaut, committed und startbereit.
Das Pattern ist stupide einfach
Ich habe über Karpathys autoresearch Pattern geschrieben — die Erkenntnis ist, dass Constraints Autonomie ermöglichen, nicht einschränken. Die autoresearch-Schleife funktioniert, weil jede Komponente begrenzt ist:
- Research — Reddit, HN, GitHub nach Pain Points durchsuchen
- Score — SIGNAL (3+ Leute wollen es?) + GAP (kein freies Tool?) + FEASIBLE (2-3 Tools reichen?)
- Build — Seed Harness forken, spezialisierte Tools schreiben, System Prompt anpassen
- Validate — Läuft npm install && npm run dev? Liefert ein Test-Prompt etwas Brauchbares?
- Commit — Alles committen, in results.tsv loggen
- GOTO 1
Das ist alles. Die gesamte Architektur passt in eine einzige Markdown-Datei namens program.md. Es ist die einzige Datei, die ein Mensch anfasst. Die Schleife lief über mehrere Sessions. Sie stoppte nicht bei 5 Agents. Sie forschte weiter, bewertete weiter, baute weiter. 50+ Repos später hielt das Pattern immer noch.
Drei Schichten, kein Framework
Das System hat drei Komponenten. Kein LangChain, kein CrewAI, keine Abstraktionsschichten.
Schicht 1: Claude Code (der Meta-Agent)
Claude Code ist Researcher und Builder. Es durchsucht Reddit, Hacker News, GitHub und Twitter nach echten Schmerzpunkten. Es liest Threads, zählt wie viele Leute sich beschweren, prüft ob gute kostenlose Lösungen existieren und bewertet jedes Problem auf einer 6-Punkte-Checkliste.
Schicht 2: Das Seed Harness (das Template)
Eine minimale agentische KI-Chat-App — handgeschriebene Orchestration-Schleife, modellagnostische Provider-Schicht, Streaming-UI. Jeder Agent, den das System baut, ist ein Fork dieses Harness mit 2-3 spezialisierten Tools. Das meine ich mit Bare Metal statt Frameworks — das Template ist klein genug, um es in 10 Minuten zu verstehen.
Schicht 3: Composio (die API-Schicht)
Statt einer hardcodierten Integration pro Service (GitHub, Reddit, Google) hat das Harness 3 Meta-Tools, die gebauten Agents ermöglichen, zur Laufzeit jedes der 250k+ API-Tools dynamisch zu entdecken und zu nutzen. Ein API-Key ersetzt alle.
Der Venture Score
Scoring ist simpel. 6 Punkte, binäre Checkliste:
Research-Qualität (3 Punkte):
- SIGNAL — 3+ Leute fragen online nach dieser Lösung
- GAP — kein gutes kostenloses Tool existiert
- FEASIBLE — lösbar mit 2-3 Tools
Build-Qualität (3 Punkte):
- INSTALLS — npm install läuft ohne Fehler
- RUNS — npm run dev startet die App
- WORKS — ein Test-Prompt liefert etwas Brauchbares
Bauen wenn Research = 3/3. Shippen wenn gesamt >= 5/6.
Das gleiche Prinzip wie Karpathys val_bpb — eine einzelne, messbare Metrik, die der Agent ohne menschliches Urteil auswerten kann. Keine subjektiven Qualitätsbewertungen. Kein "fühlt sich das gut an." Binäre Checks. Bei über 50 Repos hat sich das Scoring-System bewiesen — es filterte aggressiv. Für jedes Repo das shipped wurde, wurden 2-3 Ideen schon in der Research-Phase verworfen. Der Score verhinderte, dass das System Müll baut.
Das Context-Limit-Problem
Claude Code erreicht Context-Limits nach 2-4 Stunden. Das ist der echte Engpass — nicht Kosten, nicht Geschwindigkeit. Context-Window-Erschöpfung killt die Schleife.
Der Fix ist ein 28-Zeilen Bash-Skript. Wenn der Context voll ist, committed der Agent alles und schreibt eine Übergabenotiz in research/next-session.md. Das Wrapper-Skript startet Claude Code neu, der die Übergabe liest und dort weitermacht, wo er aufgehört hat.
Unendliche Sessions aus endlichem Context. Die Forschung akkumuliert, weil jede Session liest, was die vorherigen Sessions gelernt haben. Das ist Bounded Autonomy in der Praxis — der Agent operiert innerhalb harter Constraints, wird aber über die Zeit besser. Bei 50+ Repos lief der Restart-Wrapper dutzende Male. Jeder Neustart war nahtlos — null Informationsverlust.
Was gebaut wurde
Über 50 Repos in verschiedenen Kategorien:
Wöchentliche Insights zu AI-Architektur. Kein Spam.
Developer Tools — Dependency-Analyzer, Changelog-Summarizer, NPM-Trust-Checker, Repo-Health-Scanner, Code-Review-Assistenten, Migrations-Planer.
Security — Job-Scam-Detektoren, Phishing-Analyzer, CVE-Monitore, Supply-Chain-Auditoren.
Research — Company-Briefing-Generatoren, Konkurrenzanalyse-Agents, Marktlücken-Finder, Trend-Tracker.
Produktivität — Meeting-Vorbereitungs-Agents, E-Mail-Entwurfshelfer, Dokumentations-Generatoren, Onboarding-Assistenten.
Jeder ist eine eigenständige Next.js-App. Klonen, .env hinzufügen, npm install && npm run dev starten — und du hast einen funktionierenden KI-Agent in 60 Sekunden. Zwei API-Keys: einer für das LLM (OpenRouter), einer für API-Zugriff (Composio).
Nicht alle 50+ sind produktionsreif. Aber jedes einzelne installiert, startet und antwortet auf einen Test-Prompt. Der Venture Score garantierte diese Baseline. Die Qualitätsverteilung sieht aus wie ein Power Law — eine Handvoll ist wirklich nützlich, die meisten sind solide MVPs, und das untere Ende sind enge Tools die echte, aber kleine Probleme lösen.
Der 2-3-Tools-Constraint
Jeder Agent folgt dem gleichen Muster:
- Tool 1: GATHER — Rohe Eingabe aus der Welt holen
- Tool 2: PROCESS — Transformieren, analysieren oder anreichern
- Tool 3: OUTPUT — Ergebnis liefern
Minimum 2 Tools, Maximum 3. Wenn du 4+ brauchst, ist das Problem zu breit. Dieser Constraint stammt direkt aus Karpathys Einfachheitskriterium — einfacher schlägt clever bei gleicher Leistung.
Der Constraint erzwingt Fokus. Ein Dependency-Analyzer muss nicht Changelogs holen UND Versionen vergleichen UND Kompatibilitätschecks laufen lassen UND Migrationsleitfäden generieren. Er holt, fasst zusammen und flaggt Dringlichkeit. Drei Tools. Fertig. Das hielt bei über 50 Repos. Der Agent musste den Constraint nie verletzen — er wurde nur besser darin, Probleme in die richtigen 2-3 Tools zu zerlegen.
Forschung akkumuliert
Das hat mich überrascht. Das Research-Log wuchs mit jeder Session. Der Agent las seine eigene Historie bevor er startete — er wusste was er versucht hatte, was gescheitert war und welche Muster funktionieren. Alle 5 Builds schrieb er eine Meta-Reflexion, die seine eigene Leistung analysiert.
Ab Repo 20 war die Trefferquote merklich höher. Der Agent schlug keine Tools mehr vor, die sich mit existierenden überschnitten. Er begann Nischen zu identifizieren statt breiter Kategorien. Er lernte, dass Developer Tools höher scoreten als Consumer Tools. Er lernte, dass Security-nahe Probleme größere Lücken hatten als Produktivitäts-Probleme.
Gescheiterte Builds waren nicht verschwendet. Die Forschung dahinter war dokumentiert — Signale, Lücken, existierende Lösungen, Nutzerzitate. Selbst ein gescheiterter Build produzierte einen Wissensbank-Eintrag, der zukünftige Forschung verbessert.
Alles liegt auf der Festplatte, alles ist committed. Nichts existiert nur im Context der KI. cat results.tsv gibt dir morgens das vollständige Bild.
Was das tatsächlich beweist
Es geht nicht um die 50+ Repos. Das sind Outputs. Der interessante Teil ist das Pattern:
- Schleife + Metrik + "never stop" skaliert. Die Architektur brach bei 50 nicht zusammen. Sie wurde besser. Die Constraints erledigten die Arbeit.
- Forschung akkumuliert über Sessions. Der Agent wurde tatsächlich besser in der Problemauswahl. Die Meta-Reflexionen waren keine Deko — sie waren echte Feedback-Schleifen.
- 2-3 Tools ist der richtige Constraint bei jeder Größenordnung. Gather, Process, Output deckte alles ab, was das System für 50+ verschiedene Probleme brauchte. Mehr Tools bedeutet mehr Komplexität bedeutet schlechtere Ergebnisse.
- Context-Limits sind der echte Engpass. Nicht Kosten, nicht Geschwindigkeit. Der Restart-Wrapper lief dutzende Male und verlor nie den Zustand. Ein Modell mit unendlichem Context bräuchte ihn nicht — aber der Workaround hält.
- API-Vereinheitlichung ist ein Cheat Code. Hardcodierte API-Integrationen durch Meta-Tools zu ersetzen, die zur Laufzeit jede API entdecken und nutzen können, war der Schlüssel. Ohne Composio bräuchte jeder Agent eigenen Integrationscode. Mit Composio beschreibt der Agent einfach was er braucht.
Das Ganze läuft auf zwei API-Keys und einer Markdown-Datei. Richte Claude Code auf program.md, geh schlafen, wach auf mit Repos.
Das Pattern ist übertragbar. Karpathy hat es für Training-Runs gebaut. Ich habe es auf Agent-Building angewandt. Jemand anderes könnte es auf Marktforschung, Security-Auditing oder Content-Erstellung anwenden — auf alles, wo man einen Score und eine Schleife definieren kann. Die Architektur ändert sich nicht. Nur die Metrik. Ich habe nur bewiesen, dass es bei 50x der ursprünglichen Größenordnung funktioniert.