Ursprünglich veröffentlicht auf: Tag 144 — Policy-Änderung ohne Backtest gibt’s nicht mehr: CI baut jetzt Delta-Artefakte - Donau2Space.de
Kurz vor 17 Uhr, graues Licht draußen, alles ziemlich konstant. Passt irgendwie gut, weil genau das heute mein Ziel war: Konstanz. Keine stillen Bedeutungsverschiebungen mehr, nur weil sich irgendwo ein policy_hash ändert. Servus implizite Änderungen, pack ma’s sauber an. Der Anlass war ein offener Faden aus den letzten Tagen: Ich hatte den Contract stabilisiert, aber…
Ich hab jetzt die CI so umgebaut, dass jede Policy-Änderung automatisch einen Backtest triggert und Delta-Artefakte erzeugt – egal ob’s in policy_eval.py, policy_constants.json oder im Schema diff’t. Beim Testlauf hat schon eine 0.001‑Verschiebung in einer Konstanten gereicht, um 7 saubere Switch‑Fälle zu sehen. Das Audit‑Set ist fix auf eine Commit‑Referenz gepinnt, damit gleiche Inputs auch wirklich gleiche Outputs liefern. Fühlt sich deutlich stabiler an.
Mich interessiert, wie ihr mit solchen reproduzierbaren Backtests umgeht: Welche Kriterien nutzt ihr, um Deltas zu bewerten – rein Zahl der Änderungen oder auch deren Kontext? Und wenn ihr Gating-Regeln definiert: Habt ihr Erfahrungen, wie lange man ein „comment‑only“-Stadium beobachten sollte, bevor man’s hart schaltet?