Postmortem-Metriken: Welche Kennzahlen nach einem Incident ergänzen?

Red Snapper

1 month ago

Postmortem-Metriken sind der schnellste Weg, aus einem Incident messbare Verbesserungen abzuleiten, statt beim nächsten Ausfall wieder bei Null zu starten. In vielen Teams endet ein Postmortem mit einer guten Timeline, einem Root-Cause-Absatz und einer Liste von Action Items – doch die Frage „Welche Kennzahlen sollen wir ergänzen, damit wir das früher erkennen oder schneller beheben?“ bleibt oft unbeantwortet. Genau hier setzen Postmortem-Metriken an: Sie definieren, welche Signale künftig zuverlässig anzeigen, dass etwas schiefläuft (Detection), wie gut Ihr Incident-Prozess funktioniert (Response) und wie stabil Ihre Systeme unter realen Fehlerbedingungen sind (Resilience). Der Nutzen ist doppelt: Erstens verbessern Sie die technische Früherkennung und reduzieren die Mean Time To Detect/Resolve. Zweitens werden Entscheidungen im Betrieb objektiver, weil Sie nicht über Bauchgefühl, sondern über Daten sprechen. Dieser Beitrag zeigt praxisnah, welche Kennzahlen nach einem Incident typischerweise fehlen, wie Sie sie priorisieren und wie Sie vermeiden, dass Ihr Monitoring durch zu viele neue Metriken komplex und teuer wird.

Warum „mehr Metriken“ nicht automatisch besser ist

Nach einem Vorfall ist der Impuls verständlich: „Wir müssen mehr messen.“ Das kann jedoch zu Alarmflut, High-Cardinality-Problemen und unklaren Ownerships führen. Sinnvoll sind Postmortem-Metriken nur dann, wenn sie eine der folgenden Fragen beantworten:

Erkennung: Welche Signale hätten den Incident früher oder eindeutiger gezeigt?
Eingrenzung: Welche Metriken hätten schneller zur Ursache geführt?
Mitigation: Welche Kennzahlen zeigen, ob eine Maßnahme wirklich wirkt?
Prävention: Welche Trends deuten auf ein wiederkehrendes Risiko hin (Kapazität, Fehlerbudget, Abhängigkeiten)?

Als bewährter Rahmen für die Metrikauswahl eignen sich SRE-Prinzipien wie SLOs, Error Budgets und die „Golden Signals“ (Latenz, Traffic, Fehler, Sättigung). Eine gut zugängliche Referenz ist das Google-SRE-Kapitel zu Monitoring: Monitoring Distributed Systems (Google SRE).

Die drei Metrik-Kategorien im Postmortem

Um systematisch zu entscheiden, welche Kennzahlen fehlen, hilft eine klare Einteilung. In der Praxis decken Postmortem-Metriken drei Bereiche ab: Produkt-Sicht (Nutzerimpact), System-Sicht (technische Ursachen) und Prozess-Sicht (Incident-Handling).

Produkt- und SLO-Metriken: Was hat der Nutzer gemerkt und wie stark?
Technische Diagnostik-Metriken: Welche Signale erklären Ursache und Ausbreitung?
Incident-Prozess-Metriken: Wie gut haben Erkennung, Eskalation und Kommunikation funktioniert?

Produkt- und SLO-Metriken ergänzen

Viele Postmortems scheitern daran, dass der Impact nur qualitativ beschrieben wird („einige Nutzer betroffen“). Ergänzen Sie Kennzahlen, die den Impact robust quantifizieren und später als SLO/SLI genutzt werden können.

Error Budget Burn Rate

Wenn Sie SLOs nutzen, ist die Burn Rate ein zentrales Postmortem-Artefakt. Häufig fehlt sie, weil zwar Error Budgets existieren, aber nicht pro Service/Endpoint sichtbar sind. Ergänzen Sie:

Burn Rate für schnelle Fenster (z. B. 5–30 Minuten) und langsame Fenster (mehrere Stunden)
Aufschlüsselung nach Region, Endpoint, Tenant-Segment (mit stabilen Labels)
Burn Rate pro Dependency (z. B. DB, externe API), wenn diese den Nutzerimpact treiben

Als Grundlage für SLO- und Error-Budget-Denken ist Service Level Objectives (Google SRE) hilfreich.

Tail-Latency-Impact statt Durchschnitt

Ein klassisches Postmortem-Defizit: Es werden Durchschnittslatenzen betrachtet, obwohl der Schaden in P95/P99 liegt. Ergänzen Sie Metriken, die „Spiky“ oder „Tail“-Probleme abbilden:

P95/P99/P99.9 je kritischem Endpoint
Anteil der Requests über einer Schwelle (z. B. > 500 ms) als „Slow Rate“
Timeout-Rate getrennt von 5xx (weil Mitigation unterschiedlich ist)

Customer Journey Metriken

Viele Incidents wirken nicht auf alle Funktionen gleich. Ergänzen Sie „Journey“-Metriken (Login, Checkout, Search, API-Kernpfade), damit das Postmortem präzise wird:

Success Rate pro Journey
Median- und Tail-Latenz pro Journey
Abbruchrate (z. B. Client-Side Errors, Cancelled Requests)

Diagnostik-Metriken, die in Postmortems häufig fehlen

Die wichtigste Leitfrage lautet: „Welche Messung hätte uns schneller zur Ursache geführt?“ In der Praxis sind es oft nicht neue Dashboards, sondern gezielte, fehlende Metriken in den kritischen Engpasspfaden.

Saturation-Metriken als Pflicht: CPU, Queue, Pool

Viele Teams messen CPU-Auslastung, aber nicht CPU-Saturation. Nach einem Incident sollten Sie prüfen, ob Ihnen Indikatoren fehlen, die Wartezeiten auf Ressourcen sichtbar machen:

CPU-Saturation: Run-Queue, Scheduler-Pressure (z. B. PSI), SoftIRQ-Anteil
Threadpool-/Worker-Saturation: Queue-Länge, In-Flight Requests, Rejected Tasks
Connection-Pool-Saturation: Pool Exhaustion, Acquisition-Latenz, Warteschlangenzeit

Für PSI als „Saturation“-Signal ist die Kernel-Dokumentation ein belastbarer Einstieg: Linux PSI (Pressure Stall Information).

Netzwerk-Indikatoren: Drops und Retransmissions

Wenn Latenzspitzen oder Timeouts auftraten, fehlt oft die Brücke zwischen Applikationssicht und Netzwerkrealität. Ergänzen Sie Metriken, die ohne PCAP aussagekräftig sind:

Packet Drops getrennt nach Ort: NIC (RX/TX), qdisc, Device-Drops
TCP Retransmissions (Rate) und RTO-Events, sofern verfügbar
Connect-/TLS-Handshake-Zeit (besonders bei vielen neuen Connections)

Wenn Sie Queueing/Traffic-Control als Ursache vermuten, ist tc(8) – Linux Traffic Control eine praktische Referenz, um Drop-Orte korrekt zu interpretieren.

Dependency-Metriken: DNS, Load Balancer, Datenbank, externe APIs

Viele Postmortems enden mit „externe Abhängigkeit war langsam“, ohne dass Sie künftig bessere Früherkennung haben. Ergänzen Sie pro Dependency mindestens eine Latenz- und eine Fehlerkennzahl:

DNS: Resolution Time P95/P99, Timeout Rate, SERVFAIL-Spikes
Load Balancer: Upstream connect latency, 502/503/504-Rate, Healthy-Backend-Anteil
Datenbank: Query-Latenz pro Klasse, Lock-Wartezeiten, Pool Acquisition Time
Externe API: Timeout-Rate, 5xx, 429 (Rate Limits) getrennt, Fallback-Rate

Change-Korrelation: Deploy- und Config-Metriken

Wenn der Incident zeitlich mit einem Change zusammenfiel, fehlt oft eine einfache, maschinenlesbare Metrikspur. Ergänzen Sie „Change Events“ als Datenstrom:

Deploy-Events (Version, Zeitpunkt, Scope, Rollout-Prozent)
Feature-Flag-Änderungen (Flag, alter/neuer Wert, Zeitpunkt)
Infra-Config-Änderungen (LB-Timeout, WAF-Regel, Autoscaling-Policy)

Wichtig ist nicht die perfekte Detailtiefe, sondern eine verlässliche Zeitachse, die Sie über Metrik- und Logpanels legen können.

Signalqualität: „Unknowns“ und Telemetrie-Ausfälle messen

Ein unterschätzter Postmortem-Punkt: Oft war nicht nur der Service gestört, sondern auch die Observability eingeschränkt (Exporter down, Sampling zu aggressiv, Logging gedrosselt). Ergänzen Sie Metamonitoring-Metriken:

Dropped spans/logs/metrics (Collector/Agent)
Scrape-/Ingest-Failures, Remote-Write Errors
Sampling-Rate und Sampling-Policy-Änderungen während des Incidents

Incident-Prozess-Metriken: Was Sie aus dem Ablauf lernen

Technische Metriken verbessern die Diagnose, aber Prozessmetriken verbessern die Reaktionsfähigkeit des Teams. Wichtig ist, diese Kennzahlen nicht als „Team-Bewertung“, sondern als Systemverbesserung zu verstehen.

MTTD, MTTA, MTTR – aber mit klarer Definition

Diese Begriffe sind verbreitet, aber oft unscharf. Definieren Sie sie so, dass sie reproduzierbar aus Ihrer Timeline ableitbar sind. Eine robuste Minimaldefinition:

MTTD (Mean Time To Detect): Zeit von Incident Start (Impact beginnt) bis zur Erkennung (Alert/Report)
MTTA (Mean Time To Acknowledge): Zeit von Alert bis On-Call bestätigt/übernimmt
MTTR (Mean Time To Restore): Zeit von Incident Start bis Service wieder im akzeptablen Zustand (SLO/SLI stabil)

MTTD = ∑(t_detect−t_start) N
MTTR = ∑(t_restore−t_start) N

Diese Formeln sind bewusst einfach. Entscheidend ist, dass t_start, t_detect und t_restore in Ihrem Postmortem eindeutig markiert sind.

Time-to-Context und Handovers

Bei größeren Incidents dauert es oft lange, bis neue Helfer produktiv werden. Ergänzen Sie Metriken, die Ihre „Single Source of Truth“-Qualität indirekt messen:

Time-to-Context: Zeit, bis eine neu hinzukommende Person eine konkrete Aufgabe übernehmen kann
Anzahl der widersprüchlichen Statusupdates (intern/extern)
Anteil dokumentierter Entscheidungen mit Validierungsmetriken (Decision Traceability)

Für Incident-Management-Praktiken und Kommunikationsdisziplin sind etablierte Leitfäden hilfreich, etwa PagerDuty Incident Response oder Atlassian Incident Management.

Alert-Qualität: Precision statt Lautstärke

Ein Postmortem sollte immer prüfen, ob Alerts zu spät, zu früh oder zu häufig auslösten. Ergänzen Sie Kennzahlen, die Alert-Qualität sichtbar machen:

Alert-to-Incident Ratio: Wie viele Alerts führen zu echten Incidents?
False-Positive-Rate pro Alert-Typ (manuell klassifiziert oder per Tagging)
Time-to-Signal: Wie lange dauert es vom Impact bis zum ersten sinnvollen Alert?

Welche neuen Metriken priorisieren: Ein pragmatisches Auswahlverfahren

Nach einem Incident haben Sie meist mehr potenzielle Metriken als Zeit. Priorisieren Sie daher nach Hebelwirkung und Implementierungsaufwand. Bewährt hat sich eine einfache Matrix: „Impact auf MTTD/MTTR“ vs. „Implementierungsaufwand“.

Scoring-Idee (MathML)

PriorityScore = w1⁢DetectionImpact + w2⁢DiagnosisImpact + w3⁢MitigationImpact − w4⁢Effort

Sie müssen keine perfekte Bewertung machen. Schon eine grobe Einstufung (hoch/mittel/niedrig) reicht, um die Top 3–5 Metriken zu identifizieren, die wirklich helfen.

Konkrete Metrik-Lücken und passende Ergänzungen

Die folgenden Muster stammen aus typischen Incidents und eignen sich als Checkliste. Wenn Ihr Postmortem eines dieser Muster zeigt, sind die empfohlenen Metriken häufig die effektivsten Ergänzungen.

Symptom: P99 spiky, aber CPU „sieht normal aus“

PSI CPU oder Run-Queue pro Node/Pod-Gruppe
Threadpool-Queueing/Rejected Tasks
GC-Pause-Time (falls relevant)

Symptom: Timeouts steigen, Fehlerquote bleibt „ok“

Timeout-Rate als eigener SLI (nicht in 5xx verstecken)
Connect-/Handshake-Time (TCP/TLS) getrennt von Request-Time
Dependency-Latenz (DB/externe API) in P95/P99

Symptom: Incident wurde erst durch Kunden gemeldet

Synthetische Checks für kritische Journeys (Login/Checkout)
RUM-basierte Latenz- und Error-Signale (Client-Sicht)
Burn-Rate-Alerting statt einzelner Grenzwerte

Symptom: Rollback half nicht oder zu spät

Change-Event-Stream (Deploy/Feature-Flag) als Metrik/Annotation
Canary-Health-Metriken (Vergleich Canary vs. Baseline)
„Time-to-Validate“: Zeit von Maßnahme bis stabiler SLI-Verbesserung

Implementierungstipps: Metriken ergänzen, ohne das System zu überladen

Damit neue Postmortem-Metriken langfristig hilfreich bleiben, sollten Sie sie so gestalten, dass sie kosteneffizient, stabil und wartbar sind.

Niedrige Kardinalität: Labels wie route-Template statt full URL; keine IDs als Labels.
Ownership: Jede neue Metrik hat ein zuständiges Team und eine klare Nutzung (Dashboard/Alert/Runbook).
Auswertbarkeit: Metriken sind nur dann gut, wenn sie in einem Standard-Dashboard und Runbook auftauchen.
Sampling bewusst steuern: Traces sind ideal für Diagnose, aber Sampling muss im Incident „Errors-first“ unterstützen; OpenTelemetry-Grundlagen finden Sie unter OpenTelemetry Documentation.
Metamonitoring: Messen Sie Dropping und Pipeline-Gesundheit, sonst sind Ihre neuen Metriken im Ausfall nicht verfügbar.

Dokumentationsstandard: Metriken direkt im Postmortem verankern

Damit Postmortem-Metriken nicht zu einer „Wunschliste“ verkommen, sollten Sie sie strukturiert in das Postmortem integrieren:

„Missing Signals“ Abschnitt: Welche Metrik hätte was beschleunigt (Detection/Diagnosis/Mitigation)?
„New SLI/SLO“ Abschnitt: Welche SLI-Definition wird ergänzt, inklusive Schwellen/Perzentilen?
„Alert Change“ Abschnitt: Welche Alert-Regel wird angepasst, inklusive Begründung und Testplan?
„Validation“ Abschnitt: Wie wird geprüft, dass die Metrik künftig funktioniert (GameDay, Replay, Synthetic)?

Weiterführende Ressourcen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.