vibe-coding31. Mai 20269 Min.

Claude Prompting: Was echte Evals über Prompts zeigen

Claude Prompting: Warum weiche Verbote nicht halten, was 46 Artikel-Evals zeigen und wie du Constraints in deinem System-Prompt wirklich scharf bekommst.

Autor

Wolfgang Stefani

Vibe Designer & Vibe Coder aus Berlin. Mehr erfahren

Claude Prompting: Was echte Evals über Prompts zeigen

Das Wichtigste

→Evals zeigen das Muster, der Prompt erklärt das Warum. Erst messen, dann optimieren, nicht umgekehrt.
→Weiche Verbote halten nicht. Erst wenn du 'nach dem Schreiben: suche nach X und ersetze jeden Treffer' in den Prompt schreibst, passiert es wirklich.
→Anweisungen verleihen keine Fähigkeit. Claude braucht ein Werkzeug, ein Beispiel oder eine Vorlage, nicht die Aufforderung, es besser zu machen.
→Jedes Verbot braucht eine positive Alternative. 'Nicht X' ohne 'stattdessen Y' lässt das Modell raten und raten.
→Wenn ein Prompt zu viele Jobs gleichzeitig erledigen soll, wird er ungenauer. Drei fokussierte Prompts schlagen einen aufgeblähten.

Mein Blog-Agent hat monatelang Artikel mit dem Wort "entscheidend" produziert. Die Regel dagegen stand seit Wochen im Prompt. Schwarz auf weiß. Und trotzdem: Beim ersten vollständigen Eval-Durchlauf tauchte das Wort in 22 von 46 Artikeln auf.

Das war kein Claude-Problem. Das war mein Prompt-Problem.

Ich hatte eine Regel aufgeschrieben, aber keine Anweisung gegeben, sie tatsächlich durchzusetzen. Claude Prompting bedeutet nicht, dem Modell zu sagen, was es nicht tun soll. Es bedeutet, den Kontext so zu bauen, dass das Modell gar nicht anders kann als das Richtige zu tun.

Evals zeigen das Muster, den Prompt musst du selber lesen

Flat-Illustration eines Messgeräts mit Balkendiagramm und Lupe in blau-gelbem Stil, geometrischer Hintergrund

Falls du noch kein Eval-System für deinen Agenten hast, fang dort an. Der Artikel über KI-Agent testen mit Evals zeigt, wie du einen Code-Prüfer aufbaust, einen LLM-Richter kalibrierst und einen QA-Loop einrichtest. Evals sind automatisierte Testfälle, die systematisch prüfen, ob dein Agent das tut, was er soll. Stell sie dir vor wie eine Qualitätsprüfung am Ende einer Produktionslinie.

Dieser Artikel setzt genau da an, wo jener aufhört.

Du hast Daten. Dein Eval sagt dir: 91%, 22 Treffer für "entscheidend", 17 Artikel ohne externe Links. Das sind Muster, keine Zufälle. Jedes dieser Muster hat eine Ursache im Prompt.

Die eigentliche Frage ist nicht "Warum macht Claude das?" sondern "Was in meinem Prompt erzeugt dieses Verhalten?" Diese Denkrichtung verändert alles.

newsletter.sh

# Neuer Artikel? Du erfährst es als Erstes.

# Kein Spam. Ein kurzes Mail, wenn etwas erscheint.

Warum "schreib kein 'entscheidend'" nicht funktioniert

Flat-Illustration eines Dokuments mit durchgestrichenem Wort und Lupe die Treffer findet, blau-gelbe Palette

Ich hatte diesen Abschnitt seit Monaten im Prompt:

Verbotene KI-Wörter: nahtlos, maßgeschneidert, wegweisend, entscheidend, Mehrwert

Das Problem liegt nicht in der Absicht, sondern in der Durchsetzung. Ein Verbot, das im Prompt steht aber nicht geprüft wird, ist kein Constraint. Es ist eine Hoffnung.

Claude folgt Anweisungen sehr präzise. Aber "vermeide X" bedeutet: Versuche es zu vermeiden, wenn du daran denkst. Das ist schwach. Besonders bei längeren Texten, wo das Modell gleichzeitig auf Qualität, Struktur, SEO und Stimme achtet.

Was funktioniert: eine explizite Verifikation im Prompt. Nicht als passive Regel, sondern als aktiver Arbeitsschritt, der den Schreibprozess erst dann als abgeschlossen wertet, wenn er erledigt ist.

Nach dem Schreiben: Suche im fertigen Text nach diesen Wörtern und 
ersetze jeden Treffer. Keine Ausnahmen:
entscheidend, nahtlos, maßgeschneidert, Mehrwert, wegweisend.

Margot Vanlar vom Anthropic Applied-AI-Team hat das in einem Talk über Prompt-Optimierung so formuliert: Wenn du als Mensch nicht erkennst, was Policy und was Richtlinie ist, erkennt es das Modell auch nicht. Ich würde ergänzen: Wenn du nicht erkennst, was Wunsch und was Pflichtschritt ist, erkennt es das Modell auch nicht. Die offiziellen Anthropic Prompt Engineering Docs zeigen denselben Gedanken aus der anderen Richtung: Struktur und Klarheit zuerst, Tricks danach.

Drei Claude Prompting-Fallen aus eigener Erfahrung

Flat-Illustration dreier symbolischer Fallen als abstrakte Warnsignale in blau-gelbem Flat-Stil

Der Phantom-Patch

Manche Regeln im Prompt sind Relikte aus einer früheren Zeit. Du hast sie irgendwann eingebaut, weil eine ältere Claude-Version ein bestimmtes Problem hatte. Das neue Modell verhält sich anders. Die Regel passt nicht mehr. Aber sie ist noch da.

Ein konkretes Beispiel aus meinem System: Ich hatte eine Anweisung, die sagte: "Füge niemals ein Komma vor 'und' ein." Das stand als Hinweis im Prompt, nicht als aktiver Prüfschritt. Claude Sonnet 4.6 hielt sich meistens daran. Manchmal nicht. Der Eval fand Treffer in fast jedem zweiten langen Artikel.

Das ist kein Fehler von Claude. Neuere Modelle folgen Anweisungen präziser. Aber präziser folgen bedeutet: Eine schwache Formulierung wird schwach umgesetzt. Eine klare, aktive Formulierung wird klar umgesetzt.

Fix: Phantom-Patches identifizieren und entweder streichen oder zu einem aktiven Verifikationsschritt umwandeln. Und jede Änderung mit einem kurzen Kommentar versehen, warum sie da ist. Beim nächsten Modellwechsel weißt du dann, was du noch brauchst und was du streichen kannst.

Anweisungen verleihen keine Fähigkeiten

Das ist das Prinzip, das mich am meisten überrascht hat. Ich hatte im Prompt stehen: "Schreibe präzise Alt-Texte auf Deutsch, die den Bildinhalt konkret beschreiben."

Die Alt-Texte waren okay. Aber "okay" ist kein Standard. Bei meinen Evals bekamen Alt-Texte regelmäßig mittelmäßige Noten: zu generisch, zu abstrakt, kein Bezug zum Artikelinhalt.

Die Anweisung hat nichts bewirkt, weil sie keine Fähigkeit hinzugefügt hat. Das Modell wusste bereits, was Alt-Texte sind. Was fehlte: eine Vorlage, die das Modell durch den richtigen Denkprozess führt.

Ich habe die Anweisung umgeschrieben:

Alt-Text-Format: "Flat-Illustration, [Hauptobjekt], [Aktion oder 
Beziehung], [Farbpalette]". Nie "Bild von" oder "Illustration zeigt".
Direkt starten.

Das ist kein Wunsch mehr. Das ist ein Template. Der Unterschied in der Qualität war sofort messbar.

Margot Vanlar beschreibt dasselbe für Rechenaufgaben: Einem Modell zu sagen, es soll besser rechnen, macht es nicht besser im Rechnen. Die Lösung war ein Werkzeug, eine externe Funktion, die das Modell aufrufen kann. Für Alt-Texte war das Werkzeug kein Code, sondern eine Vorlage. Das Prinzip ist identisch.

Nur verboten, nie gezeigt

22 von 46 Artikeln hatten "entscheidend" drin. Das Wort war verboten. Aber was soll Claude stattdessen schreiben?

Wenn du einem Modell nur sagst, was es nicht tun soll, sucht es nach dem nächstbesten Ersatz. "Entscheidend" ist weg, aber "wegweisend" ist noch erlaubt. Oder "wichtig". Oder "grundlegend". Alle drei standen ebenfalls auf meiner Verbotsliste. Aber Modelle ohne Richtung testen Alternativen.

Die Regel, die funktioniert, gibt beides:

Nie: entscheidend, wegweisend, maßgeschneidert.
Stattdessen: Beschreibe konkret, was die Konsequenz ist.
Nicht "Das ist entscheidend für deinen Erfolg."
Sondern "Ohne das verlierst du X" oder "Mit dem Schritt passiert Y."

Das gibt dem Modell eine Richtung. Es weiß jetzt, wohin es gehen soll, nicht nur, wo es nicht hingehen darf.

Was ich an der Prompt-Struktur konkret geändert habe

Flat-Illustration eines Dokuments mit klar getrennten XML-Sektionen und Dividers, aufgeräumter Workspace in blau-gelbem Stil

Der /write-blog-post Prompt, den dieser Blog verwendet, war über Monate gewachsen. Regeln wurden ergänzt, Patches eingefügt, Abschnitte erweitert. Irgendwann war es ein langer Block mit allem drin.

Das Hauptproblem: Stil-Regeln standen neben SEO-Regeln, neben Verboten, neben Prozessschritten. Keine klare Trennung. Und wenn du als Mensch die Struktur nicht mehr erkennst, erkennt sie das Modell auch nicht.

Die Lösung war Struktur durch XML-Tags:

<role>...</role>
<voice-rules>...</voice-rules>
<post-writing-checks>...</post-writing-checks>
<output-format>...</output-format>

Der <post-writing-checks>-Abschnitt ist dabei die wichtigste Neuerung. Keine Verbote, sondern aktive Aufgaben:

<post-writing-checks>
  Suche im Text nach: entscheidend, nahtlos, maßgeschneidert, Mehrwert,
  wegweisend. Ersetze jeden Treffer.
  Suche nach ", und". Teile den Satz auf oder entferne das Komma.
  Prüfe: Hat jeder Abschnitt mindestens ein konkretes Beispiel?
</post-writing-checks>

Diese Checks laufen nach dem Schreiben, vor der Ausgabe. Sie sind nicht optional. Sie stehen in einem Abschnitt, der klar von den Schreibregeln getrennt ist.

Wenn ein Prompt aufgehört hat, ein Prompt zu sein

Flat-Illustration dreier verbundener Pfeile als Kreislauf aus Schreiben, Prüfen und Reparieren in blau-gelbem Stil

Irgendwann wird ein Prompt zu lang. Der /write-blog-post Workflow hatte nach Monaten so viel Komplexität angesammelt, dass er kaum noch wartbar war. Jede neue Regel konnte eine andere brechen. Der Eval-Score stagnierte.

Die Lösung war dieselbe, die Margot Vanlar für Agenten-Setups beschreibt: Aufteilen. Drei statt einem: Spezialisierte Prompts statt eines einzigen, unübersichtlichen Lang-Prompts:

Writing-Prompt: Erstellt den Artikel. Kennt Voice, Struktur und SEO-Regeln.
Code-Prüfer: Läuft deterministisch gegen evals/kriterien.md. Kein Qualitätsurteil, nur Zählen und Regex.
LLM-Richter: Bewertet Voice und Austauschbarkeit gegen evals/richter_prompt.md.

Das ist kein theoretisches Konstrukt. Es ist das Setup, das du im evals/-Ordner dieser Seite finden würdest. Und es hat einen messbaren Unterschied gemacht: von 88% auf 91% Code-Check-Quote in einem Durchgang (Ich habe davor schon durch Evals einiges optimiert). Ohne den Writing-Prompt zu verändern.

Der Unterschied zur alten Version: Jeder Teil hat eine klare, begrenzte Aufgabe. Der Writer muss nicht gleichzeitig schreiben, prüfen und korrigieren. Der Code-Prüfer muss keine Qualitätsurteile fällen. Der Richter muss keine Zeichen zählen.

Wenn du bei deinem Claude Prompting feststeckst und der Eval-Score trotz Prompt-Änderungen nicht besser wird: Prüfe zuerst, ob dein Prompt eigentlich drei verschiedene Jobs gleichzeitig erledigen soll. Wenn ja, teile ihn auf.

Für den Einstieg in Claude Code hilft der Einsteiger-Guide. Wer verstehen will, wie KI-Agenten dauerhaft besser werden, findet mehr im Artikel über KI-Agent testen mit Evals. Und wer tiefer in Prompt-Techniken einsteigen will, ist beim Prompting Guide gut aufgehoben.

newsletter.sh

# Neuer Artikel? Du erfährst es als Erstes.

# Kein Spam. Ein kurzes Mail, wenn etwas erscheint.

Ich hätte da eine Idee für ein internes Tool. Mein Team verliert täglich Stunden mit manuellen Prozessen.

Klingt nach einem klassischen Fall. Was hält dich davon ab, es bauen zu lassen?

Die Angebote, die ich bisher bekommen habe. Das günstigste lag bei 38.000 €.

Das kenne ich. Genau dafür gibt es den Vibe Coding Sprint.

Ich baue dir das Tool in 2 bis 5 Tagen. Festpreis ab 2.500 € netto. Kein langer Briefing-Prozess, kein Hin und Her.

Was bekomme ich dafür konkret?

Produktionsreifes Tool mit sauberer Architektur, Datenbank-Setup und vollständiger Code-Übergabe. Du besitzt den Code.

Ich will mehr erfahren →

Brauchst du Hilfe dabei?

Was für ein Projekt hast du im Kopf?

Ich helfe dir gerne weiter. Schreib mir kurz, worum es geht.

Kein Spam. Wolfgang antwortet persönlich. Meist am selben Tag.

← Vorheriger ArtikelWebsite mit KI erstellen: Anleitung in 5 Schritten

Nächster Artikel →Claude & Datenschutz: Ist Claude DSGVO-konform? (2026)

Mehr Blogeinträge

Hermes Agent: KI-Agent lokal & DSGVO-freundlich nutzen

Hermes Agent installieren und nutzen, Schritt für Schritt: dein autonomer KI-Agent auf Desktop oder Server, mit lokalem LLM via LM Studio DSGVO-freundlich.

Artikel lesen

KI-Agent für Marketing: Was du jetzt automatisieren kannst

KI-Agenten im Marketing automatisieren Content, Ads-Loops und tägliches Reporting. Konkrete Arbeitsabläufe für Marketer, ohne Agentur, ohne Entwickler.

Artikel lesen

Claude & Datenschutz: Ist Claude DSGVO-konform? (2026)

Welcher Claude-Plan ist DSGVO-konform, wann brauchst du einen AVV und was darfst du eingeben? Praktischer Leitfaden für Selbstständige und KMUs.

Artikel lesen

Zurück zum Blog

Das war kein Claude-Problem. Das war mein Prompt-Problem.

Evals zeigen das Muster, den Prompt musst du selber lesen

Flat-Illustration eines Messgeräts mit Balkendiagramm und Lupe in blau-gelbem Stil, geometrischer Hintergrund

Dieser Artikel setzt genau da an, wo jener aufhört.

Du hast Daten. Dein Eval sagt dir: 91%, 22 Treffer für "entscheidend", 17 Artikel ohne externe Links. Das sind Muster, keine Zufälle. Jedes dieser Muster hat eine Ursache im Prompt.

Die eigentliche Frage ist nicht "Warum macht Claude das?" sondern "Was in meinem Prompt erzeugt dieses Verhalten?" Diese Denkrichtung verändert alles.

newsletter.sh

# Neuer Artikel? Du erfährst es als Erstes.

# Kein Spam. Ein kurzes Mail, wenn etwas erscheint.

Warum "schreib kein 'entscheidend'" nicht funktioniert

Flat-Illustration eines Dokuments mit durchgestrichenem Wort und Lupe die Treffer findet, blau-gelbe Palette

Ich hatte diesen Abschnitt seit Monaten im Prompt:

Verbotene KI-Wörter: nahtlos, maßgeschneidert, wegweisend, entscheidend, Mehrwert

Das Problem liegt nicht in der Absicht, sondern in der Durchsetzung. Ein Verbot, das im Prompt steht aber nicht geprüft wird, ist kein Constraint. Es ist eine Hoffnung.

Was funktioniert: eine explizite Verifikation im Prompt. Nicht als passive Regel, sondern als aktiver Arbeitsschritt, der den Schreibprozess erst dann als abgeschlossen wertet, wenn er erledigt ist.

Nach dem Schreiben: Suche im fertigen Text nach diesen Wörtern und 
ersetze jeden Treffer. Keine Ausnahmen:
entscheidend, nahtlos, maßgeschneidert, Mehrwert, wegweisend.

Drei Claude Prompting-Fallen aus eigener Erfahrung

Flat-Illustration dreier symbolischer Fallen als abstrakte Warnsignale in blau-gelbem Flat-Stil

Der Phantom-Patch

Anweisungen verleihen keine Fähigkeiten

Das ist das Prinzip, das mich am meisten überrascht hat. Ich hatte im Prompt stehen: "Schreibe präzise Alt-Texte auf Deutsch, die den Bildinhalt konkret beschreiben."

Die Alt-Texte waren okay. Aber "okay" ist kein Standard. Bei meinen Evals bekamen Alt-Texte regelmäßig mittelmäßige Noten: zu generisch, zu abstrakt, kein Bezug zum Artikelinhalt.

Ich habe die Anweisung umgeschrieben:

Alt-Text-Format: "Flat-Illustration, [Hauptobjekt], [Aktion oder 
Beziehung], [Farbpalette]". Nie "Bild von" oder "Illustration zeigt".
Direkt starten.

Das ist kein Wunsch mehr. Das ist ein Template. Der Unterschied in der Qualität war sofort messbar.

Nur verboten, nie gezeigt

22 von 46 Artikeln hatten "entscheidend" drin. Das Wort war verboten. Aber was soll Claude stattdessen schreiben?

Die Regel, die funktioniert, gibt beides:

Nie: entscheidend, wegweisend, maßgeschneidert.
Stattdessen: Beschreibe konkret, was die Konsequenz ist.
Nicht "Das ist entscheidend für deinen Erfolg."
Sondern "Ohne das verlierst du X" oder "Mit dem Schritt passiert Y."

Das gibt dem Modell eine Richtung. Es weiß jetzt, wohin es gehen soll, nicht nur, wo es nicht hingehen darf.

Was ich an der Prompt-Struktur konkret geändert habe

Flat-Illustration eines Dokuments mit klar getrennten XML-Sektionen und Dividers, aufgeräumter Workspace in blau-gelbem Stil

Die Lösung war Struktur durch XML-Tags:

<role>...</role>
<voice-rules>...</voice-rules>
<post-writing-checks>...</post-writing-checks>
<output-format>...</output-format>

Der <post-writing-checks>-Abschnitt ist dabei die wichtigste Neuerung. Keine Verbote, sondern aktive Aufgaben:

<post-writing-checks>
  Suche im Text nach: entscheidend, nahtlos, maßgeschneidert, Mehrwert,
  wegweisend. Ersetze jeden Treffer.
  Suche nach ", und". Teile den Satz auf oder entferne das Komma.
  Prüfe: Hat jeder Abschnitt mindestens ein konkretes Beispiel?
</post-writing-checks>

Diese Checks laufen nach dem Schreiben, vor der Ausgabe. Sie sind nicht optional. Sie stehen in einem Abschnitt, der klar von den Schreibregeln getrennt ist.

Wenn ein Prompt aufgehört hat, ein Prompt zu sein

Flat-Illustration dreier verbundener Pfeile als Kreislauf aus Schreiben, Prüfen und Reparieren in blau-gelbem Stil

Die Lösung war dieselbe, die Margot Vanlar für Agenten-Setups beschreibt: Aufteilen. Drei statt einem: Spezialisierte Prompts statt eines einzigen, unübersichtlichen Lang-Prompts:

Writing-Prompt: Erstellt den Artikel. Kennt Voice, Struktur und SEO-Regeln.
Code-Prüfer: Läuft deterministisch gegen evals/kriterien.md. Kein Qualitätsurteil, nur Zählen und Regex.
LLM-Richter: Bewertet Voice und Austauschbarkeit gegen evals/richter_prompt.md.

newsletter.sh

# Neuer Artikel? Du erfährst es als Erstes.

# Kein Spam. Ein kurzes Mail, wenn etwas erscheint.

Ich hätte da eine Idee für ein internes Tool. Mein Team verliert täglich Stunden mit manuellen Prozessen.

Klingt nach einem klassischen Fall. Was hält dich davon ab, es bauen zu lassen?

Die Angebote, die ich bisher bekommen habe. Das günstigste lag bei 38.000 €.

Das kenne ich. Genau dafür gibt es den Vibe Coding Sprint.

Ich baue dir das Tool in 2 bis 5 Tagen. Festpreis ab 2.500 € netto. Kein langer Briefing-Prozess, kein Hin und Her.

Was bekomme ich dafür konkret?

Produktionsreifes Tool mit sauberer Architektur, Datenbank-Setup und vollständiger Code-Übergabe. Du besitzt den Code.

Ich will mehr erfahren →