Postmortem-Metriken sind der schnellste Weg, aus einem Incident messbare Verbesserungen abzuleiten, statt beim nächsten Ausfall wieder bei Null zu starten. In vielen Teams endet ein Postmortem mit einer guten Timeline, einem Root-Cause-Absatz und einer Liste von Action Items – doch die Frage „Welche Kennzahlen sollen wir ergänzen, damit wir das früher erkennen oder schneller beheben?“ bleibt oft unbeantwortet. Genau hier setzen Postmortem-Metriken an: Sie definieren, welche Signale künftig zuverlässig anzeigen, dass etwas schiefläuft (Detection), wie gut Ihr Incident-Prozess funktioniert (Response) und wie stabil Ihre Systeme unter realen Fehlerbedingungen sind (Resilience). Der Nutzen ist doppelt: Erstens verbessern Sie die technische Früherkennung und reduzieren die Mean Time To Detect/Resolve. Zweitens werden Entscheidungen im Betrieb objektiver, weil Sie nicht über Bauchgefühl, sondern über Daten sprechen. Dieser Beitrag zeigt praxisnah, welche Kennzahlen nach einem Incident typischerweise fehlen, wie Sie sie priorisieren und wie Sie vermeiden, dass Ihr Monitoring durch zu viele neue Metriken komplex und teuer wird.
Warum „mehr Metriken“ nicht automatisch besser ist
Nach einem Vorfall ist der Impuls verständlich: „Wir müssen mehr messen.“ Das kann jedoch zu Alarmflut, High-Cardinality-Problemen und unklaren Ownerships führen. Sinnvoll sind Postmortem-Metriken nur dann, wenn sie eine der folgenden Fragen beantworten:
- Erkennung: Welche Signale hätten den Incident früher oder eindeutiger gezeigt?
- Eingrenzung: Welche Metriken hätten schneller zur Ursache geführt?
- Mitigation: Welche Kennzahlen zeigen, ob eine Maßnahme wirklich wirkt?
- Prävention: Welche Trends deuten auf ein wiederkehrendes Risiko hin (Kapazität, Fehlerbudget, Abhängigkeiten)?
Als bewährter Rahmen für die Metrikauswahl eignen sich SRE-Prinzipien wie SLOs, Error Budgets und die „Golden Signals“ (Latenz, Traffic, Fehler, Sättigung). Eine gut zugängliche Referenz ist das Google-SRE-Kapitel zu Monitoring: Monitoring Distributed Systems (Google SRE).
Die drei Metrik-Kategorien im Postmortem
Um systematisch zu entscheiden, welche Kennzahlen fehlen, hilft eine klare Einteilung. In der Praxis decken Postmortem-Metriken drei Bereiche ab: Produkt-Sicht (Nutzerimpact), System-Sicht (technische Ursachen) und Prozess-Sicht (Incident-Handling).
- Produkt- und SLO-Metriken: Was hat der Nutzer gemerkt und wie stark?
- Technische Diagnostik-Metriken: Welche Signale erklären Ursache und Ausbreitung?
- Incident-Prozess-Metriken: Wie gut haben Erkennung, Eskalation und Kommunikation funktioniert?
Produkt- und SLO-Metriken ergänzen
Viele Postmortems scheitern daran, dass der Impact nur qualitativ beschrieben wird („einige Nutzer betroffen“). Ergänzen Sie Kennzahlen, die den Impact robust quantifizieren und später als SLO/SLI genutzt werden können.
Error Budget Burn Rate
Wenn Sie SLOs nutzen, ist die Burn Rate ein zentrales Postmortem-Artefakt. Häufig fehlt sie, weil zwar Error Budgets existieren, aber nicht pro Service/Endpoint sichtbar sind. Ergänzen Sie:
- Burn Rate für schnelle Fenster (z. B. 5–30 Minuten) und langsame Fenster (mehrere Stunden)
- Aufschlüsselung nach Region, Endpoint, Tenant-Segment (mit stabilen Labels)
- Burn Rate pro Dependency (z. B. DB, externe API), wenn diese den Nutzerimpact treiben
Als Grundlage für SLO- und Error-Budget-Denken ist Service Level Objectives (Google SRE) hilfreich.
Tail-Latency-Impact statt Durchschnitt
Ein klassisches Postmortem-Defizit: Es werden Durchschnittslatenzen betrachtet, obwohl der Schaden in P95/P99 liegt. Ergänzen Sie Metriken, die „Spiky“ oder „Tail“-Probleme abbilden:
- P95/P99/P99.9 je kritischem Endpoint
- Anteil der Requests über einer Schwelle (z. B. > 500 ms) als „Slow Rate“
- Timeout-Rate getrennt von 5xx (weil Mitigation unterschiedlich ist)
Customer Journey Metriken
Viele Incidents wirken nicht auf alle Funktionen gleich. Ergänzen Sie „Journey“-Metriken (Login, Checkout, Search, API-Kernpfade), damit das Postmortem präzise wird:
- Success Rate pro Journey
- Median- und Tail-Latenz pro Journey
- Abbruchrate (z. B. Client-Side Errors, Cancelled Requests)
Diagnostik-Metriken, die in Postmortems häufig fehlen
Die wichtigste Leitfrage lautet: „Welche Messung hätte uns schneller zur Ursache geführt?“ In der Praxis sind es oft nicht neue Dashboards, sondern gezielte, fehlende Metriken in den kritischen Engpasspfaden.
Saturation-Metriken als Pflicht: CPU, Queue, Pool
Viele Teams messen CPU-Auslastung, aber nicht CPU-Saturation. Nach einem Incident sollten Sie prüfen, ob Ihnen Indikatoren fehlen, die Wartezeiten auf Ressourcen sichtbar machen:
- CPU-Saturation: Run-Queue, Scheduler-Pressure (z. B. PSI), SoftIRQ-Anteil
- Threadpool-/Worker-Saturation: Queue-Länge, In-Flight Requests, Rejected Tasks
- Connection-Pool-Saturation: Pool Exhaustion, Acquisition-Latenz, Warteschlangenzeit
Für PSI als „Saturation“-Signal ist die Kernel-Dokumentation ein belastbarer Einstieg: Linux PSI (Pressure Stall Information).
Netzwerk-Indikatoren: Drops und Retransmissions
Wenn Latenzspitzen oder Timeouts auftraten, fehlt oft die Brücke zwischen Applikationssicht und Netzwerkrealität. Ergänzen Sie Metriken, die ohne PCAP aussagekräftig sind:
- Packet Drops getrennt nach Ort: NIC (RX/TX), qdisc, Device-Drops
- TCP Retransmissions (Rate) und RTO-Events, sofern verfügbar
- Connect-/TLS-Handshake-Zeit (besonders bei vielen neuen Connections)
Wenn Sie Queueing/Traffic-Control als Ursache vermuten, ist tc(8) – Linux Traffic Control eine praktische Referenz, um Drop-Orte korrekt zu interpretieren.
Dependency-Metriken: DNS, Load Balancer, Datenbank, externe APIs
Viele Postmortems enden mit „externe Abhängigkeit war langsam“, ohne dass Sie künftig bessere Früherkennung haben. Ergänzen Sie pro Dependency mindestens eine Latenz- und eine Fehlerkennzahl:
- DNS: Resolution Time P95/P99, Timeout Rate, SERVFAIL-Spikes
- Load Balancer: Upstream connect latency, 502/503/504-Rate, Healthy-Backend-Anteil
- Datenbank: Query-Latenz pro Klasse, Lock-Wartezeiten, Pool Acquisition Time
- Externe API: Timeout-Rate, 5xx, 429 (Rate Limits) getrennt, Fallback-Rate
Change-Korrelation: Deploy- und Config-Metriken
Wenn der Incident zeitlich mit einem Change zusammenfiel, fehlt oft eine einfache, maschinenlesbare Metrikspur. Ergänzen Sie „Change Events“ als Datenstrom:
- Deploy-Events (Version, Zeitpunkt, Scope, Rollout-Prozent)
- Feature-Flag-Änderungen (Flag, alter/neuer Wert, Zeitpunkt)
- Infra-Config-Änderungen (LB-Timeout, WAF-Regel, Autoscaling-Policy)
Wichtig ist nicht die perfekte Detailtiefe, sondern eine verlässliche Zeitachse, die Sie über Metrik- und Logpanels legen können.
Signalqualität: „Unknowns“ und Telemetrie-Ausfälle messen
Ein unterschätzter Postmortem-Punkt: Oft war nicht nur der Service gestört, sondern auch die Observability eingeschränkt (Exporter down, Sampling zu aggressiv, Logging gedrosselt). Ergänzen Sie Metamonitoring-Metriken:
- Dropped spans/logs/metrics (Collector/Agent)
- Scrape-/Ingest-Failures, Remote-Write Errors
- Sampling-Rate und Sampling-Policy-Änderungen während des Incidents
Incident-Prozess-Metriken: Was Sie aus dem Ablauf lernen
Technische Metriken verbessern die Diagnose, aber Prozessmetriken verbessern die Reaktionsfähigkeit des Teams. Wichtig ist, diese Kennzahlen nicht als „Team-Bewertung“, sondern als Systemverbesserung zu verstehen.
MTTD, MTTA, MTTR – aber mit klarer Definition
Diese Begriffe sind verbreitet, aber oft unscharf. Definieren Sie sie so, dass sie reproduzierbar aus Ihrer Timeline ableitbar sind. Eine robuste Minimaldefinition:
- MTTD (Mean Time To Detect): Zeit von Incident Start (Impact beginnt) bis zur Erkennung (Alert/Report)
- MTTA (Mean Time To Acknowledge): Zeit von Alert bis On-Call bestätigt/übernimmt
- MTTR (Mean Time To Restore): Zeit von Incident Start bis Service wieder im akzeptablen Zustand (SLO/SLI stabil)
Diese Formeln sind bewusst einfach. Entscheidend ist, dass t_start, t_detect und t_restore in Ihrem Postmortem eindeutig markiert sind.
Time-to-Context und Handovers
Bei größeren Incidents dauert es oft lange, bis neue Helfer produktiv werden. Ergänzen Sie Metriken, die Ihre „Single Source of Truth“-Qualität indirekt messen:
- Time-to-Context: Zeit, bis eine neu hinzukommende Person eine konkrete Aufgabe übernehmen kann
- Anzahl der widersprüchlichen Statusupdates (intern/extern)
- Anteil dokumentierter Entscheidungen mit Validierungsmetriken (Decision Traceability)
Für Incident-Management-Praktiken und Kommunikationsdisziplin sind etablierte Leitfäden hilfreich, etwa PagerDuty Incident Response oder Atlassian Incident Management.
Alert-Qualität: Precision statt Lautstärke
Ein Postmortem sollte immer prüfen, ob Alerts zu spät, zu früh oder zu häufig auslösten. Ergänzen Sie Kennzahlen, die Alert-Qualität sichtbar machen:
- Alert-to-Incident Ratio: Wie viele Alerts führen zu echten Incidents?
- False-Positive-Rate pro Alert-Typ (manuell klassifiziert oder per Tagging)
- Time-to-Signal: Wie lange dauert es vom Impact bis zum ersten sinnvollen Alert?
Welche neuen Metriken priorisieren: Ein pragmatisches Auswahlverfahren
Nach einem Incident haben Sie meist mehr potenzielle Metriken als Zeit. Priorisieren Sie daher nach Hebelwirkung und Implementierungsaufwand. Bewährt hat sich eine einfache Matrix: „Impact auf MTTD/MTTR“ vs. „Implementierungsaufwand“.
Scoring-Idee (MathML)
Sie müssen keine perfekte Bewertung machen. Schon eine grobe Einstufung (hoch/mittel/niedrig) reicht, um die Top 3–5 Metriken zu identifizieren, die wirklich helfen.
Konkrete Metrik-Lücken und passende Ergänzungen
Die folgenden Muster stammen aus typischen Incidents und eignen sich als Checkliste. Wenn Ihr Postmortem eines dieser Muster zeigt, sind die empfohlenen Metriken häufig die effektivsten Ergänzungen.
Symptom: P99 spiky, aber CPU „sieht normal aus“
- PSI CPU oder Run-Queue pro Node/Pod-Gruppe
- Threadpool-Queueing/Rejected Tasks
- GC-Pause-Time (falls relevant)
Symptom: Timeouts steigen, Fehlerquote bleibt „ok“
- Timeout-Rate als eigener SLI (nicht in 5xx verstecken)
- Connect-/Handshake-Time (TCP/TLS) getrennt von Request-Time
- Dependency-Latenz (DB/externe API) in P95/P99
Symptom: Incident wurde erst durch Kunden gemeldet
- Synthetische Checks für kritische Journeys (Login/Checkout)
- RUM-basierte Latenz- und Error-Signale (Client-Sicht)
- Burn-Rate-Alerting statt einzelner Grenzwerte
Symptom: Rollback half nicht oder zu spät
- Change-Event-Stream (Deploy/Feature-Flag) als Metrik/Annotation
- Canary-Health-Metriken (Vergleich Canary vs. Baseline)
- „Time-to-Validate“: Zeit von Maßnahme bis stabiler SLI-Verbesserung
Implementierungstipps: Metriken ergänzen, ohne das System zu überladen
Damit neue Postmortem-Metriken langfristig hilfreich bleiben, sollten Sie sie so gestalten, dass sie kosteneffizient, stabil und wartbar sind.
- Niedrige Kardinalität: Labels wie route-Template statt full URL; keine IDs als Labels.
- Ownership: Jede neue Metrik hat ein zuständiges Team und eine klare Nutzung (Dashboard/Alert/Runbook).
- Auswertbarkeit: Metriken sind nur dann gut, wenn sie in einem Standard-Dashboard und Runbook auftauchen.
- Sampling bewusst steuern: Traces sind ideal für Diagnose, aber Sampling muss im Incident „Errors-first“ unterstützen; OpenTelemetry-Grundlagen finden Sie unter OpenTelemetry Documentation.
- Metamonitoring: Messen Sie Dropping und Pipeline-Gesundheit, sonst sind Ihre neuen Metriken im Ausfall nicht verfügbar.
Dokumentationsstandard: Metriken direkt im Postmortem verankern
Damit Postmortem-Metriken nicht zu einer „Wunschliste“ verkommen, sollten Sie sie strukturiert in das Postmortem integrieren:
- „Missing Signals“ Abschnitt: Welche Metrik hätte was beschleunigt (Detection/Diagnosis/Mitigation)?
- „New SLI/SLO“ Abschnitt: Welche SLI-Definition wird ergänzt, inklusive Schwellen/Perzentilen?
- „Alert Change“ Abschnitt: Welche Alert-Regel wird angepasst, inklusive Begründung und Testplan?
- „Validation“ Abschnitt: Wie wird geprüft, dass die Metrik künftig funktioniert (GameDay, Replay, Synthetic)?
Weiterführende Ressourcen
- Service Level Objectives (Google SRE)
- Monitoring Distributed Systems (Google SRE)
- Linux PSI (Pressure Stall Information)
- tc(8) – Linux Traffic Control
- OpenTelemetry Documentation
- PagerDuty Incident Response
- Atlassian Incident Management
Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte
Cisco Networking • CCNA • Packet Tracer • Network Configuration
Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.
Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.
Leistungsumfang:
-
Netzwerkdesign & Topologie-Planung
-
Router- & Switch-Konfiguration (Cisco IOS)
-
VLAN, Inter-VLAN Routing
-
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
-
NAT, ACL, DHCP, DNS-Konfiguration
-
Troubleshooting & Netzwerkoptimierung
-
Packet Tracer Projektentwicklung & Dokumentation
-
CCNA Lern- & Praxisunterstützung
Lieferumfang:
-
Konfigurationsdateien
-
Packet-Tracer-Dateien (.pkt)
-
Netzwerkdokumentation
-
Schritt-für-Schritt-Erklärungen (auf Wunsch)
Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert
CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.










