Mein Blog-Agent hat monatelang Artikel mit dem Wort "entscheidend" produziert. Die Regel dagegen stand seit Wochen im Prompt. Schwarz auf weiß. Und trotzdem: Beim ersten vollständigen Eval-Durchlauf tauchte das Wort in 22 von 46 Artikeln auf.
Das war kein Claude-Problem. Das war mein Prompt-Problem.
Ich hatte eine Regel aufgeschrieben, aber keine Anweisung gegeben, sie tatsächlich durchzusetzen. Claude Prompting bedeutet nicht, dem Modell zu sagen, was es nicht tun soll. Es bedeutet, den Kontext so zu bauen, dass das Modell gar nicht anders kann als das Richtige zu tun.
Evals zeigen das Muster, den Prompt musst du selber lesen

Falls du noch kein Eval-System für deinen Agenten hast, fang dort an. Der Artikel über KI-Agent testen mit Evals zeigt, wie du einen Code-Prüfer aufbaust, einen LLM-Richter kalibrierst und einen QA-Loop einrichtest. Evals sind automatisierte Testfälle, die systematisch prüfen, ob dein Agent das tut, was er soll. Stell sie dir vor wie eine Qualitätsprüfung am Ende einer Produktionslinie.
Dieser Artikel setzt genau da an, wo jener aufhört.
Du hast Daten. Dein Eval sagt dir: 91%, 22 Treffer für "entscheidend", 17 Artikel ohne externe Links. Das sind Muster, keine Zufälle. Jedes dieser Muster hat eine Ursache im Prompt.
Die eigentliche Frage ist nicht "Warum macht Claude das?" sondern "Was in meinem Prompt erzeugt dieses Verhalten?" Diese Denkrichtung verändert alles.
# Neuer Artikel? Du erfährst es als Erstes.
# Kein Spam. Ein kurzes Mail, wenn etwas erscheint.
Warum "schreib kein 'entscheidend'" nicht funktioniert

Ich hatte diesen Abschnitt seit Monaten im Prompt:
Verbotene KI-Wörter: nahtlos, maßgeschneidert, wegweisend, entscheidend, Mehrwert
Das Problem liegt nicht in der Absicht, sondern in der Durchsetzung. Ein Verbot, das im Prompt steht aber nicht geprüft wird, ist kein Constraint. Es ist eine Hoffnung.
Claude folgt Anweisungen sehr präzise. Aber "vermeide X" bedeutet: Versuche es zu vermeiden, wenn du daran denkst. Das ist schwach. Besonders bei längeren Texten, wo das Modell gleichzeitig auf Qualität, Struktur, SEO und Stimme achtet.
Was funktioniert: eine explizite Verifikation im Prompt. Nicht als passive Regel, sondern als aktiver Arbeitsschritt, der den Schreibprozess erst dann als abgeschlossen wertet, wenn er erledigt ist.
Nach dem Schreiben: Suche im fertigen Text nach diesen Wörtern und
ersetze jeden Treffer. Keine Ausnahmen:
entscheidend, nahtlos, maßgeschneidert, Mehrwert, wegweisend.
Margot Vanlar vom Anthropic Applied-AI-Team hat das in einem Talk über Prompt-Optimierung so formuliert: Wenn du als Mensch nicht erkennst, was Policy und was Richtlinie ist, erkennt es das Modell auch nicht. Ich würde ergänzen: Wenn du nicht erkennst, was Wunsch und was Pflichtschritt ist, erkennt es das Modell auch nicht. Die offiziellen Anthropic Prompt Engineering Docs zeigen denselben Gedanken aus der anderen Richtung: Struktur und Klarheit zuerst, Tricks danach.
Drei Claude Prompting-Fallen aus eigener Erfahrung

Der Phantom-Patch
Manche Regeln im Prompt sind Relikte aus einer früheren Zeit. Du hast sie irgendwann eingebaut, weil eine ältere Claude-Version ein bestimmtes Problem hatte. Das neue Modell verhält sich anders. Die Regel passt nicht mehr. Aber sie ist noch da.
Ein konkretes Beispiel aus meinem System: Ich hatte eine Anweisung, die sagte: "Füge niemals ein Komma vor 'und' ein." Das stand als Hinweis im Prompt, nicht als aktiver Prüfschritt. Claude Sonnet 4.6 hielt sich meistens daran. Manchmal nicht. Der Eval fand Treffer in fast jedem zweiten langen Artikel.
Das ist kein Fehler von Claude. Neuere Modelle folgen Anweisungen präziser. Aber präziser folgen bedeutet: Eine schwache Formulierung wird schwach umgesetzt. Eine klare, aktive Formulierung wird klar umgesetzt.
Fix: Phantom-Patches identifizieren und entweder streichen oder zu einem aktiven Verifikationsschritt umwandeln. Und jede Änderung mit einem kurzen Kommentar versehen, warum sie da ist. Beim nächsten Modellwechsel weißt du dann, was du noch brauchst und was du streichen kannst.
Anweisungen verleihen keine Fähigkeiten
Das ist das Prinzip, das mich am meisten überrascht hat. Ich hatte im Prompt stehen: "Schreibe präzise Alt-Texte auf Deutsch, die den Bildinhalt konkret beschreiben."
Die Alt-Texte waren okay. Aber "okay" ist kein Standard. Bei meinen Evals bekamen Alt-Texte regelmäßig mittelmäßige Noten: zu generisch, zu abstrakt, kein Bezug zum Artikelinhalt.
Die Anweisung hat nichts bewirkt, weil sie keine Fähigkeit hinzugefügt hat. Das Modell wusste bereits, was Alt-Texte sind. Was fehlte: eine Vorlage, die das Modell durch den richtigen Denkprozess führt.
Ich habe die Anweisung umgeschrieben:
Alt-Text-Format: "Flat-Illustration, [Hauptobjekt], [Aktion oder
Beziehung], [Farbpalette]". Nie "Bild von" oder "Illustration zeigt".
Direkt starten.
Das ist kein Wunsch mehr. Das ist ein Template. Der Unterschied in der Qualität war sofort messbar.
Margot Vanlar beschreibt dasselbe für Rechenaufgaben: Einem Modell zu sagen, es soll besser rechnen, macht es nicht besser im Rechnen. Die Lösung war ein Werkzeug, eine externe Funktion, die das Modell aufrufen kann. Für Alt-Texte war das Werkzeug kein Code, sondern eine Vorlage. Das Prinzip ist identisch.
Nur verboten, nie gezeigt
22 von 46 Artikeln hatten "entscheidend" drin. Das Wort war verboten. Aber was soll Claude stattdessen schreiben?
Wenn du einem Modell nur sagst, was es nicht tun soll, sucht es nach dem nächstbesten Ersatz. "Entscheidend" ist weg, aber "wegweisend" ist noch erlaubt. Oder "wichtig". Oder "grundlegend". Alle drei standen ebenfalls auf meiner Verbotsliste. Aber Modelle ohne Richtung testen Alternativen.
Die Regel, die funktioniert, gibt beides:
Nie: entscheidend, wegweisend, maßgeschneidert.
Stattdessen: Beschreibe konkret, was die Konsequenz ist.
Nicht "Das ist entscheidend für deinen Erfolg."
Sondern "Ohne das verlierst du X" oder "Mit dem Schritt passiert Y."
Das gibt dem Modell eine Richtung. Es weiß jetzt, wohin es gehen soll, nicht nur, wo es nicht hingehen darf.
Was ich an der Prompt-Struktur konkret geändert habe

Der /write-blog-post Prompt, den dieser Blog verwendet, war über Monate gewachsen. Regeln wurden ergänzt, Patches eingefügt, Abschnitte erweitert. Irgendwann war es ein langer Block mit allem drin.
Das Hauptproblem: Stil-Regeln standen neben SEO-Regeln, neben Verboten, neben Prozessschritten. Keine klare Trennung. Und wenn du als Mensch die Struktur nicht mehr erkennst, erkennt sie das Modell auch nicht.
Die Lösung war Struktur durch XML-Tags:
<role>...</role>
<voice-rules>...</voice-rules>
<post-writing-checks>...</post-writing-checks>
<output-format>...</output-format>
Der <post-writing-checks>-Abschnitt ist dabei die wichtigste Neuerung. Keine Verbote, sondern aktive Aufgaben:
<post-writing-checks>
Suche im Text nach: entscheidend, nahtlos, maßgeschneidert, Mehrwert,
wegweisend. Ersetze jeden Treffer.
Suche nach ", und". Teile den Satz auf oder entferne das Komma.
Prüfe: Hat jeder Abschnitt mindestens ein konkretes Beispiel?
</post-writing-checks>
Diese Checks laufen nach dem Schreiben, vor der Ausgabe. Sie sind nicht optional. Sie stehen in einem Abschnitt, der klar von den Schreibregeln getrennt ist.
Wenn ein Prompt aufgehört hat, ein Prompt zu sein

Irgendwann wird ein Prompt zu lang. Der /write-blog-post Workflow hatte nach Monaten so viel Komplexität angesammelt, dass er kaum noch wartbar war. Jede neue Regel konnte eine andere brechen. Der Eval-Score stagnierte.
Die Lösung war dieselbe, die Margot Vanlar für Agenten-Setups beschreibt: Aufteilen. Drei statt einem: Spezialisierte Prompts statt eines einzigen, unübersichtlichen Lang-Prompts:
- Writing-Prompt: Erstellt den Artikel. Kennt Voice, Struktur und SEO-Regeln.
- Code-Prüfer: Läuft deterministisch gegen
evals/kriterien.md. Kein Qualitätsurteil, nur Zählen und Regex. - LLM-Richter: Bewertet Voice und Austauschbarkeit gegen
evals/richter_prompt.md.
Das ist kein theoretisches Konstrukt. Es ist das Setup, das du im evals/-Ordner dieser Seite finden würdest. Und es hat einen messbaren Unterschied gemacht: von 88% auf 91% Code-Check-Quote in einem Durchgang (Ich habe davor schon durch Evals einiges optimiert). Ohne den Writing-Prompt zu verändern.
Der Unterschied zur alten Version: Jeder Teil hat eine klare, begrenzte Aufgabe. Der Writer muss nicht gleichzeitig schreiben, prüfen und korrigieren. Der Code-Prüfer muss keine Qualitätsurteile fällen. Der Richter muss keine Zeichen zählen.
Wenn du bei deinem Claude Prompting feststeckst und der Eval-Score trotz Prompt-Änderungen nicht besser wird: Prüfe zuerst, ob dein Prompt eigentlich drei verschiedene Jobs gleichzeitig erledigen soll. Wenn ja, teile ihn auf.
Für den Einstieg in Claude Code hilft der Einsteiger-Guide. Wer verstehen will, wie KI-Agenten dauerhaft besser werden, findet mehr im Artikel über KI-Agent testen mit Evals. Und wer tiefer in Prompt-Techniken einsteigen will, ist beim Prompting Guide gut aufgehoben.




