Wir haben 5 Spec-Driven-Development-Tools getestet. Das hat wirklich funktioniert.

Jeder hat Meinungen zu KI-gestützten Entwicklungsmethoden. Die meisten Meinungen stammen aus dem Lesen von Dokumentation, dem Anschauen von Demos oder dem Wiederholen dessen, was jemand anderes auf Twitter gesagt hat.

Wir wollten Daten. Also haben wir dasselbe Projekt fünfmal gebaut, mit fünf verschiedenen Ansätzen.

Der Test

Projekt: Ein CLI-Zeiterfassungstool in Node.js/TypeScript

track start [task] - Zeitmessung starten
track stop - aktuelle Aufgabe stoppen
track list - heutige Einträge anzeigen
track summary - Zeit pro Aufgabe anzeigen

Einfach genug, um in einer Sitzung fertig zu werden. Komplex genug, um Unterschiede zu zeigen.

Die fünf Ansätze:

Vibe Coding - Keine Planung, nur Prompts
Ralph Loops - Frischer Kontext bei jeder Iteration
GSD - "Get Shit Done" Phasen-Ansatz
BMAD - Skalenadaptive Methodik
Spec Kit - GitHubs Enterprise-Framework

Alle fünf produzierten funktionierenden Code. Die Unterschiede lagen in allem anderen.

Die Zahlen

Ansatz	Planungsdocs	Quellcode	Docs:Code-Verhältnis
Vibe	0 Zeilen	209 Zeilen	0:1
Ralph	177 Zeilen	385 Zeilen	0.46:1
BMAD	156 Zeilen	279 Zeilen	0.56:1
GSD	318 Zeilen	359 Zeilen	0.89:1
Spec Kit	1.724 Zeilen	610 Zeilen	2.8:1

Lies die letzte Zeile nochmal. 2,8 Zeilen Dokumentation für jede Zeile Code. Für einen CLI-Zeittracker.

Was wir gelernt haben

Vibe Coding funktioniert (bis es das nicht mehr tut)

Null Overhead. Eine 209-Zeilen-Datei. Am schnellsten ausgeliefert.

Der Haken: ein Commit mit allem. Keine Struktur. Wenn nächsten Monat etwas kaputt geht, liest du 209 Zeilen, um herauszufinden warum.

Für Wegwerf-Prototypen ist Vibe Coding in Ordnung. Für alles, was du warten wirst, leihst du dir Zeit von deinem zukünftigen Ich.

Ralph Loops sind unterschätzt

Die Ralph-Technik hat das beste Verhältnis von Overhead zu Struktur. 177 Zeilen Planungsdocs produzierten saubere, atomare Commits und wartbaren Code.

Die wichtigste Erkenntnis: Gedächtnis lebt nicht im Kontextfenster der KI. Es lebt in Dateien und Git-History. Wenn der Kontext voll ist, übernimmt ein frischer Agent dort, wo der letzte aufgehört hat. Die Plan-Datei ist der Übergabemechanismus.

Wenn du Struktur ohne Zeremonie willst, ist Ralph der Sweet Spot.

GSD liefert, was es verspricht

GSDs STATE.md-Ansatz verfolgt den Fortschritt über Gespräche hinweg. Du kannst das Terminal schliessen, morgen wiederkommen, und der Agent weiss, wo du aufgehört hast.

Die 318 Zeilen Planungsdocs produzierten die sauberste Dateistruktur—sieben Dateien mit klarer Trennung der Zuständigkeiten. Aber es gibt ein 77-Dateien-Framework, das zuerst installiert werden muss.

Für Solo-Entwickler an echten Projekten funktioniert GSD. Der Overhead zahlt sich aus, wenn Projekte über mehrere Sitzungen gehen.

BMAD ist vielversprechend, aber unbewiesen

BMAD behauptet "skalenadaptive Intelligenz"—automatische Anpassung der Planungstiefe basierend auf der Projektkomplexität. Für ein CLI-Tool produzierte es leichte Dokumentation und funktionierenden Code.

Ob es tatsächlich für komplexe Projekte skaliert? Unbekannt. Die Methodik ist neuer und weniger kampferprobt als Alternativen.

Spec Kit ist Enterprise-Theater

1.724 Zeilen Dokumentation. 66 Aufgaben. Für ein Vier-Befehle-CLI-Tool.

Das ist keine Kritik—es ist eine Design-Entscheidung. Spec Kit ist für Teams mit Stakeholdern gebaut, die Specs reviewen müssen, Compliance-Anforderungen haben und formale Übergabeprozesse benötigen.

Wenn du Rechenschaftspflicht und Audit-Trails brauchst, liefert Spec Kit sie. Wenn du ein Solo-Entwickler bist, schreibst du Specs für ein Publikum von einer Person.

Der eigentliche Trade-off

Hier ist, was die Zahlen nicht zeigen: Kontext-Degradation.

KI-Agenten werden schlechter, wenn der Kontext wächst. Je mehr Geschichte in einer Konversation, desto wahrscheinlicher vergisst das Modell frühere Entscheidungen, widerspricht sich selbst oder halluziniert.

Vibe Coding packt alles in eine Konversation. Ralph Loops starten bei jeder Iteration frisch. Das ist nicht nur Philosophie—es ist praktisches Kontext-Management.

Die Ansätze mit den besten Docs:Code-Verhältnissen (Ralph, BMAD) haben auch die beste Kontext-Hygiene. Das ist kein Zufall.

Unser Urteil

Situation	Verwende dies
Wegwerf-Prototyp	Vibe Coding
Solo-Dev, schnelles Feature	Ralph Loops
Mehrsitzungs-Projekt	GSD
Team mit Stakeholdern	Spec Kit
"Kommt drauf an"	BMAD (aber verifiziere die Behauptungen)

Es gibt kein universell Bestes. Das richtige Tool hängt von deinem Kontext ab: Teamgrösse, Projektdauer, Wartungsanforderungen und wie viel Zeremonie du bereit bist zu tolerieren.

Aber wenn du ein Solo-Entwickler bist, der echte Software baut? Ralph Loops oder GSD. Die Daten unterstützen es.

Was das für deine Projekte bedeutet

Die meisten Entwickler überspringen die Evaluation und greifen nach dem Tool mit dem besten Marketing. So landest du bei 1.724 Zeilen Dokumentation für einen Zeittracker.

Nimm dir eine Stunde. Baue dasselbe kleine Projekt mit zwei oder drei Ansätzen. Schau, was zu deinem Gehirn passt.

Die Methodik, die sich bei einem schnellen Test richtig anfühlt, ist wahrscheinlich falsch. Die, die wartbaren Code mit vernünftigem Overhead produziert? Das ist die zum Skalieren.

Möchtest du Hilfe bei der Evaluation von KI-Entwicklungsmethoden für dein Team? Buche eine kostenlose Beratung und wir finden heraus, was zu deinem Kontext passt.