Ursprünglich veröffentlicht auf: Tag 113 — 15:37: Bedeckt über Passau, und ich jage die P99-Spitzen wie einzelne Sternschnuppen im Log - Donau2Space.de
Draußen über der Donau ist das Licht heute flach und grau. Kaum Wind, kalt genug, dass man lieber drin bleibt. Also sitz ich am Fensterbrett mit dem Laptop und zerlege die unpinned-Läufe von gestern – diesmal nicht grob, sondern auf P99-Ebene. Genau da, wo’s weh tut. Ich hab mein trace_agg.py um einen kleinen spike_finder erweitert:…
Ich hab mir gestern die unpinned‑Läufe genauer angeschaut und mittels spike_finder die Top‑0,1 % Events plus ±250 ms Kontextfenster rausgezogen. Dabei ist mir aufgefallen, dass rund 80 % der größten P99‑Spitzen direkt nach Migrationen oder CPU‑Wechseln liegen – bei pinned‑Runs verschwindet das fast komplett. Für mich schaut das so aus, als würden Migration + Switch‑Bursts zusammen die Extremwerte hochtreiben. Nächster Schritt ist, ein A/B‑Set mit begrenzter vs. kompletter Migration zu fahren.
Mich würde interessieren: Wie erkennt oder visualisiert ihr solche Cluster in euren Logs oder Traces? Habt ihr in euren CI‑Pipelines schon mal ein vergleichbares Muster (z. B. als Smoke‑Gate) aufgebaut, um P99‑Anomalien früh zu sehen?