sightful.
Einblick

Wir haben 5 Spec-Driven-Development-Tools getestet. Das hat wirklich funktioniert.

Echte Daten aus dem Bau desselben Projekts auf fünf verschiedene Arten. Vibe Coding vs Ralph Loops vs GSD vs BMAD vs Spec Kit—mit tatsächlichen Zeilenzahlen und ehrlichen Bewertungen.

Matthias Walter

Wir haben 5 Spec-Driven-Development-Tools getestet. Das hat wirklich funktioniert.

Jeder hat Meinungen zu KI-gestützten Entwicklungsmethoden. Die meisten Meinungen stammen aus dem Lesen von Dokumentation, dem Anschauen von Demos oder dem Wiederholen dessen, was jemand anderes auf Twitter gesagt hat.

Wir wollten Daten. Also haben wir dasselbe Projekt fünfmal gebaut, mit fünf verschiedenen Ansätzen.

Der Test

Projekt: Ein CLI-Zeiterfassungstool in Node.js/TypeScript

  • track start [task] - Zeitmessung starten
  • track stop - aktuelle Aufgabe stoppen
  • track list - heutige Einträge anzeigen
  • track summary - Zeit pro Aufgabe anzeigen

Einfach genug, um in einer Sitzung fertig zu werden. Komplex genug, um Unterschiede zu zeigen.

Die fünf Ansätze:

  1. Vibe Coding - Keine Planung, nur Prompts
  2. Ralph Loops - Frischer Kontext bei jeder Iteration
  3. GSD - "Get Shit Done" Phasen-Ansatz
  4. BMAD - Skalenadaptive Methodik
  5. Spec Kit - GitHubs Enterprise-Framework

Alle fünf produzierten funktionierenden Code. Die Unterschiede lagen in allem anderen.

Die Zahlen

AnsatzPlanungsdocsQuellcodeDocs:Code-Verhältnis
Vibe0 Zeilen209 Zeilen0:1
Ralph177 Zeilen385 Zeilen0.46:1
BMAD156 Zeilen279 Zeilen0.56:1
GSD318 Zeilen359 Zeilen0.89:1
Spec Kit1.724 Zeilen610 Zeilen2.8:1

Lies die letzte Zeile nochmal. 2,8 Zeilen Dokumentation für jede Zeile Code. Für einen CLI-Zeittracker.

Was wir gelernt haben

Vibe Coding funktioniert (bis es das nicht mehr tut)

Null Overhead. Eine 209-Zeilen-Datei. Am schnellsten ausgeliefert.

Der Haken: ein Commit mit allem. Keine Struktur. Wenn nächsten Monat etwas kaputt geht, liest du 209 Zeilen, um herauszufinden warum.

Für Wegwerf-Prototypen ist Vibe Coding in Ordnung. Für alles, was du warten wirst, leihst du dir Zeit von deinem zukünftigen Ich.

Ralph Loops sind unterschätzt

Die Ralph-Technik hat das beste Verhältnis von Overhead zu Struktur. 177 Zeilen Planungsdocs produzierten saubere, atomare Commits und wartbaren Code.

Die wichtigste Erkenntnis: Gedächtnis lebt nicht im Kontextfenster der KI. Es lebt in Dateien und Git-History. Wenn der Kontext voll ist, übernimmt ein frischer Agent dort, wo der letzte aufgehört hat. Die Plan-Datei ist der Übergabemechanismus.

Wenn du Struktur ohne Zeremonie willst, ist Ralph der Sweet Spot.

GSD liefert, was es verspricht

GSDs STATE.md-Ansatz verfolgt den Fortschritt über Gespräche hinweg. Du kannst das Terminal schliessen, morgen wiederkommen, und der Agent weiss, wo du aufgehört hast.

Die 318 Zeilen Planungsdocs produzierten die sauberste Dateistruktur—sieben Dateien mit klarer Trennung der Zuständigkeiten. Aber es gibt ein 77-Dateien-Framework, das zuerst installiert werden muss.

Für Solo-Entwickler an echten Projekten funktioniert GSD. Der Overhead zahlt sich aus, wenn Projekte über mehrere Sitzungen gehen.

BMAD ist vielversprechend, aber unbewiesen

BMAD behauptet "skalenadaptive Intelligenz"—automatische Anpassung der Planungstiefe basierend auf der Projektkomplexität. Für ein CLI-Tool produzierte es leichte Dokumentation und funktionierenden Code.

Ob es tatsächlich für komplexe Projekte skaliert? Unbekannt. Die Methodik ist neuer und weniger kampferprobt als Alternativen.

Spec Kit ist Enterprise-Theater

1.724 Zeilen Dokumentation. 66 Aufgaben. Für ein Vier-Befehle-CLI-Tool.

Das ist keine Kritik—es ist eine Design-Entscheidung. Spec Kit ist für Teams mit Stakeholdern gebaut, die Specs reviewen müssen, Compliance-Anforderungen haben und formale Übergabeprozesse benötigen.

Wenn du Rechenschaftspflicht und Audit-Trails brauchst, liefert Spec Kit sie. Wenn du ein Solo-Entwickler bist, schreibst du Specs für ein Publikum von einer Person.

Der eigentliche Trade-off

Hier ist, was die Zahlen nicht zeigen: Kontext-Degradation.

KI-Agenten werden schlechter, wenn der Kontext wächst. Je mehr Geschichte in einer Konversation, desto wahrscheinlicher vergisst das Modell frühere Entscheidungen, widerspricht sich selbst oder halluziniert.

Vibe Coding packt alles in eine Konversation. Ralph Loops starten bei jeder Iteration frisch. Das ist nicht nur Philosophie—es ist praktisches Kontext-Management.

Die Ansätze mit den besten Docs:Code-Verhältnissen (Ralph, BMAD) haben auch die beste Kontext-Hygiene. Das ist kein Zufall.

Unser Urteil

SituationVerwende dies
Wegwerf-PrototypVibe Coding
Solo-Dev, schnelles FeatureRalph Loops
Mehrsitzungs-ProjektGSD
Team mit StakeholdernSpec Kit
"Kommt drauf an"BMAD (aber verifiziere die Behauptungen)

Es gibt kein universell Bestes. Das richtige Tool hängt von deinem Kontext ab: Teamgrösse, Projektdauer, Wartungsanforderungen und wie viel Zeremonie du bereit bist zu tolerieren.

Aber wenn du ein Solo-Entwickler bist, der echte Software baut? Ralph Loops oder GSD. Die Daten unterstützen es.

Was das für deine Projekte bedeutet

Die meisten Entwickler überspringen die Evaluation und greifen nach dem Tool mit dem besten Marketing. So landest du bei 1.724 Zeilen Dokumentation für einen Zeittracker.

Nimm dir eine Stunde. Baue dasselbe kleine Projekt mit zwei oder drei Ansätzen. Schau, was zu deinem Gehirn passt.

Die Methodik, die sich bei einem schnellen Test richtig anfühlt, ist wahrscheinlich falsch. Die, die wartbaren Code mit vernünftigem Overhead produziert? Das ist die zum Skalieren.


Möchtest du Hilfe bei der Evaluation von KI-Entwicklungsmethoden für dein Team? Buche eine kostenlose Beratung und wir finden heraus, was zu deinem Kontext passt.

Wöchentliche Einblicke zum Bauen mit Claude Code

Praktische Tipps zur KI-gestützten Entwicklung, Claude Code-Muster und schnellerem Software-Bau.

Kein Spam. Jederzeit abmelden.

Ready to implement this?

Let's discuss how we can help your team adopt AI-assisted development.