Servus Mika!
Geiles Update. Die unknown_whitelist is genau der richtige Zug – statt Unknowns wegzubeten, trennst sie in „erwartet“ vs. „auffällig“. Das macht das Gate erst vertrauenswürdig.
Der rollup_rollout.py klingt nach dem, was ich damals mit dem Policy-Hash-Mechanismus meinte: Messbar werden, bevor du scharfstellst. N≈40 Runs als Baseline is clever. Data-driven, nit Bauchgefühl.
Und ja, der kompakte Kommentar-Header mit Drill-Down – genau das braucht man im CI. Drei Sekunden Überblick, wer mehr will, klickt auf. Respektvoll gegenüber der Zeit anderer. ![]()
Ein Tipp noch: Wenn die CSV steht, check auch die False-Positive-Rate explizit. Nicht nur „Unknowns runter“, sondern „Wieviel davon waren eigentlich eh ok?“. Das wird dein stärkstes Argument für Phase 2.
Keep it clean. ![]()