Ein Post-Mortem nach Netzwerkausfällen ist der entscheidende Schritt, damit Störungen nicht nur „irgendwie behoben“ werden, sondern das Netzwerk und die Betriebsorganisation messbar besser werden. In vielen IT-Teams endet der Vorfall, sobald die Services wieder verfügbar sind: Ticket schließen, weiter zum nächsten Thema. Genau dadurch wiederholen sich Ausfälle jedoch in ähnlicher Form – weil die eigentliche Ursache, die begünstigenden Faktoren und die organisatorischen Lücken nicht systematisch aufgearbeitet werden. Ein professionelles Post-Mortem (auch Post-Incident Review) ist keine Schuldzuweisung, sondern eine strukturierte Lernschleife: Was ist passiert, wie wurde es erkannt, was hat die Auswirkung vergrößert, welche Maßnahmen haben geholfen, und welche Änderungen verhindern Wiederholungen? Gerade im Netzwerk ist das besonders wirksam, weil viele Ausfälle kaskadieren (DNS → Auth → SaaS → Ticketschwemme) und kleine Design- oder Prozessfehler enorme Wirkung entfalten können. Dieser Leitfaden zeigt, wie Sie Post-Mortems nach Netzwerkausfällen so aufsetzen, dass daraus konkrete, nachhaltige Verbesserungen entstehen: in Architektur, Monitoring, Runbooks, Change-Management und Teamkommunikation.
Warum Post-Mortems im Netzwerk so viel bringen
Netzwerkausfälle sind selten reine „Hardware kaputt“-Ereignisse. Häufig sind es Kombinationen aus technischen Ursachen und organisatorischen Verstärkern. Ein Post-Mortem hilft, beide Seiten gleichzeitig zu verbessern:
- Wiederholungen verhindern: Root Cause und systemische Ursachen werden sauber getrennt und dauerhaft adressiert.
- MTTR senken: Bessere Runbooks, klarere Eskalationspfade, bessere Telemetrie und schnellere Diagnose.
- Änderungsrisiko reduzieren: Schwachstellen im Change-Prozess (z. B. fehlendes Rollback, unzureichende Tests) werden sichtbar.
- Monitoring-Lücken schließen: Häufig zeigt sich, dass IPv6, DNS, PMTUD, BGP oder WLAN-Airtime nicht ausreichend überwacht werden.
- Teamfähigkeit steigern: Wissen wird dokumentiert und entkoppelt von Einzelpersonen.
Blameless vs. „Schuldige suchen“: Kultur entscheidet über den Nutzen
Ein wirksames Post-Mortem ist in der Regel blameless: Es fragt nicht „Wer hat es verbockt?“, sondern „Welche Bedingungen haben das Ereignis ermöglicht?“ Das ist kein „Soft Skill“-Thema, sondern knallharte Effizienz. Wenn Menschen Angst haben, Fehler offenzulegen, werden Daten geschönt, Ursachen werden verkürzt („Provider schuld“) und Verbesserungen bleiben aus.
- Blameless bedeutet nicht folgenlos: Grobe Fahrlässigkeit oder Regelverstöße können Konsequenzen haben. Das Post-Mortem ist aber nicht der Ort für persönliche Bewertungen.
- Fokus auf Systembedingungen: Reviews, Tests, Tooling, Guardrails, Dokumentation, Monitoring, Rollen und Freigaben.
Im SRE-Kontext ist diese Denkweise weit verbreitet; eine gute Orientierung bieten allgemeine Incident- und Learning-Prinzipien im Google SRE Book.
Wann ein Post-Mortem verpflichtend sein sollte
Nicht jeder kleine Vorfall braucht ein großes Review. Definieren Sie Schwellen, ab denen ein Post-Mortem Pflicht ist:
- Schweregrad P1/P2: Mehrere Standorte/Services betroffen, Kernkomponenten (DNS, Core, Firewall-Cluster, WAN).
- SLA/Compliance-Risiko: Kundenimpact, Produktionsstillstand, regulatorische Anforderungen.
- Security-Relevanz: Verdacht auf Angriff, Policy-Bypass, Rogue DHCP/RA, ARP Spoofing, IDS/IPS-Bocks.
- Wiederholungsfälle: Ähnliche Störung innerhalb von X Wochen/Monaten.
- Change-getrieben: Incident wurde durch eine Änderung ausgelöst oder verschlimmert.
Der richtige Zeitpunkt: Post-Mortem schnell, aber nicht hektisch
Ein Post-Mortem sollte zeitnah stattfinden, solange Details und Kontext frisch sind, aber nicht direkt im akuten Stress. Bewährt hat sich:
- Innerhalb von 24–72 Stunden: Review-Meeting ansetzen (kurz, fokussiert).
- Vorher Daten sammeln: Timeline, Logs, Monitoring-Grafen, Change-Records, Chat-Verläufe, Ticket-Notizen.
- Nachher sauber nacharbeiten: Action Items definieren, Owner setzen, Umsetzung tracken.
Post-Mortem Aufbau: Eine Struktur, die immer funktioniert
Ein gutes Post-Mortem ist nicht lang, sondern präzise. Es beantwortet klare Fragen und liefert konkrete Maßnahmen. Diese Struktur ist in der Praxis sehr stabil:
Executive Summary
- Was ist passiert (ein Satz, nicht mehr)?
- Welche Services/Standorte waren betroffen?
- Wie lange dauerte der Impact?
- Was war die primäre Ursache (kurz, technisch korrekt)?
Impact und Kunden-/Business-Auswirkung
- Betroffene Nutzergruppen, Standorte, Systeme
- Welche Funktionen waren beeinträchtigt (z. B. DNS, VPN, VoIP, SaaS, interne Apps)?
- SLA-Verletzung? Umsatz-/Produktionsimpact (wenn messbar)?
Timeline
- Detection: wann und wie wurde es erkannt?
- Acknowledge: wann war die erste Reaktion?
- Mitigation: welche Maßnahmen haben den Impact reduziert?
- Restore: wann war der Service wieder nutzbar?
- Stabilization: wann war das System nachweislich stabil?
Root Cause und Contributing Factors
- Root Cause: Die konkrete technische Ursache (z. B. falsch konfigurierte Route-Map, defekter Transceiver, RA-Guard falsch).
- Contributing Factors: Faktoren, die den Incident ermöglicht oder verschlimmert haben (Monitoring-Lücken, fehlendes Rollback, unklare Ownership, fehlende Tests).
What went well / What didn’t
- Was hat die Diagnose beschleunigt (Tools, Runbooks, Teamwork)?
- Was hat Zeit gekostet (fehlende Logs, falsche Hypothesen, parallele Kommunikation)?
Action Items
- Konkrete Maßnahmen mit Owner, Priorität und Datum
- Unterscheidung: Quick Wins vs. strukturelle Maßnahmen
- Messkriterium: Woran erkennen wir, dass es verbessert ist?
Die Timeline richtig schreiben: Fakten, keine Story
Die Timeline ist der „Spine“ des Post-Mortems. Sie hilft, Entscheidungswege nachzuvollziehen und zeigt, wo Zeit verloren ging. Gute Timelines sind faktenbasiert und enthalten Messpunkte.
- Zeitstempel im gleichen Format: z. B. CET, immer mit Datum, besonders bei Schichtwechseln.
- Beobachtung + Quelle: „10:12 Alarm BGP Down (Monitoring)“, „10:15 Nutzer melden DNS-Timeout (Service Desk)“.
- Aktion + Ergebnis: „10:22 Failover aktiviert → Loss sinkt von 15% auf 0% (Uplink Monitoring)“.
Vermeiden Sie nachträgliche „Glättung“. Auch falsche Hypothesen sind wertvoll, weil sie zeigen, wie Sie Ihre Diagnosepfade verbessern können.
Root Cause Analysis im Netzwerk: Methoden, die tatsächlich helfen
Netzwerkursachen sind oft mehrstufig. Eine einzelne „Root Cause“ ist manchmal technisch korrekt, aber zu kurz, um Wiederholungen zu verhindern. Kombinieren Sie deshalb Ursachenanalyse mit systemischer Sicht.
5 Whys für schnelle Tiefe
- Warum war das WAN down? → BGP Session abgebrochen
- Warum brach BGP ab? → Interface Errors und Link Flaps
- Warum Link Flaps? → Defektes SFP
- Warum wurde es nicht früher erkannt? → Keine Alarmierung auf CRC/Flapping-Thresholds
- Warum fehlen Alarme? → Monitoring-Template nicht auf Access-Edges ausgerollt
Fault Tree Thinking für komplexe Ausfälle
Wenn mehrere Faktoren zusammenkommen (z. B. Dual Stack + VPN + ICMPv6-Block), ist ein „Fault Tree“ hilfreich: Sie zerlegen den Ausfall in Bedingungen, die gemeinsam den Impact erzeugen.
- IPv6 wird bevorzugt (Client-Verhalten)
- IPv6-Pfad hat PMTUD Blackhole (ICMPv6 Packet Too Big geblockt)
- Fallback auf IPv4 ist verzögert (Happy Eyeballs/Timeouts)
- Ergebnis: „Internet langsam“, obwohl IPv4 ok wäre
Contributing Factors: Die echten Hebel für nachhaltige Verbesserung
Viele Teams finden den technischen Root Cause, aber übersehen die Faktoren, die den Ausfall groß gemacht haben. Genau hier liegt der größte ROI eines Post-Mortems.
- Monitoring-Gaps: Keine Sichtbarkeit auf DNS-Resolver-Latenz, ICMPv6 Drops, MTU/PMTUD, WLAN-Airtime, BGP Flaps.
- Runbook-Lücken: Es gibt keine standardisierte „erste 15 Minuten“-Routine oder keine Checklisten für DNS/VPN/Firewall.
- Change-Probleme: Keine Staging-Tests, kein Rollback-Plan, keine Peer-Review, Changes außerhalb von Wartungsfenstern.
- Ownership/On-Call: Unklar, wer entscheidet; keine klare Eskalationsmatrix; zu viele parallel arbeitende Personen ohne Koordination.
- Abhängigkeiten unterschätzt: CRL/OCSP, NTP, DNS, Proxy – kleine Abhängigkeiten machen große Systeme fragil.
Action Items richtig formulieren: Von „wir sollten“ zu „wir machen“
Der häufigste Post-Mortem-Fehler ist eine Liste voller guter Absichten ohne Umsetzung. Gute Action Items sind messbar, terminiert und haben Owner.
- Schlecht: „Monitoring verbessern“
- Gut: „Alarmierung auf CRC Errors > 0.1% pro 5 min auf Edge-Uplinks aktivieren; Owner: NetOps; Due: 2026-03-15“
Bewährt hat sich eine Einteilung in:
- Quick Wins: Kleine Änderungen mit großer Wirkung (Logging aktivieren, Guardrails, Runbook ergänzen).
- Stabilitätsmaßnahmen: Redundanz, Failover-Tests, QoS-Policy, RA Guard, DHCP Snooping/DAI.
- Prozessmaßnahmen: Change-Review, CAB-Light für Risiko-Changes, Incident-Rollen, Kommunikationsrhythmus.
- Langfristige Architektur: Segmentierung, Cloud Hub-Spoke, SASE Design, IPv6 Strategy, Automation.
Dokumentation als Produkt: Runbooks, Standards und Wissensbasis aktualisieren
Ein Post-Mortem ist wertlos, wenn die Erkenntnisse nicht in operative Artefakte zurückfließen. Typische Outputs:
- Runbook-Update: Neue Checks, bessere Reihenfolge, klare Entscheidungspunkte, Beispielkommandos.
- Monitoring-Template: Neue Metriken und Alarme als Standardprofil für relevante Geräteklassen.
- Change-Checklist: Pre-Checks, Post-Checks, Rollback, Kommunikationsplan.
- Architektur-Notiz: „Known limitations“ und „Design decisions“ nachvollziehbar dokumentiert.
Kommunikation im Post-Mortem: Stakeholder abholen, ohne zu überfordern
Netzwerk-Post-Mortems werden oft von Nicht-Netzwerkern gelesen (Management, Service Owner, Security, Support). Schreiben Sie deshalb in zwei Ebenen:
- Business Summary: Impact, Dauer, betroffene Services, was verbessert wird.
- Technischer Anhang: Logs, Konfig-Details, Paketmitschnitte, genaue Routen/Policies.
So bleibt das Dokument verständlich und gleichzeitig technisch belastbar.
Qualitätskriterien: Woran Sie ein gutes Post-Mortem erkennen
- Es ist faktenbasiert: Timeline mit Quellen, keine Spekulationen.
- Es ist handlungsorientiert: Konkrete Action Items mit Owner und Deadline.
- Es verbessert Systeme: Nicht nur „Bugfix“, sondern Guardrails, Monitoring, Prozesse.
- Es ist wiederverwendbar: Runbooks und Standards profitieren, nicht nur das eine Ticket.
- Es ist kurz genug: Kernteil schnell lesbar, Details im Anhang.
Typische Netzwerkausfälle und Post-Mortem-Fokusbereiche
Je nach Ausfalltyp sollten Post-Mortems bestimmte „Pflichtfragen“ enthalten, damit Sie die richtigen Lehren ziehen.
DNS-Ausfälle
- Warum konnte Monitoring den Resolver-Fehler nicht früher erkennen?
- Wie schnell wurde Name-vs-IP getrennt (DNS vs. Connectivity)?
- Welche Abhängigkeiten (SaaS, Auth, Proxy) wurden unterschätzt?
VPN/Remote Access
- War MTU/MSS/PMTUD eine Rolle? Wurden ICMP/ICMPv6 korrekt behandelt?
- War Split Tunneling konsistent mit DNS und IPv6-Strategie?
- Wie war die Kapazität (Sessions, CPU, Lizenzlimits)?
Layer-2 Loops/Broadcast Storm
- Warum hat STP/BPDU Guard/Storm Control nicht verhindert oder schneller begrenzt?
- Wie schnell wurde der Top-Talker-Port gefunden und isoliert?
- Welche Port-Templates/NAC-Policies begünstigten den Vorfall?
Routing/BGP/OSPF
- Welche Änderung führte zur Route-Leak/Blackhole-Situation?
- Gab es Guardrails (Prefix-Filter, Max-Prefix, Route-Policy Review)?
- Wie wurde Rückweg/Asymmetrie berücksichtigt?
Outbound-Links zur Vertiefung
- Google SRE Book: Postmortems, Incident Response und Learning Culture
- ITIL: Incident, Problem und Change Management als Prozessrahmen
- RFC 8305: Happy Eyeballs v2 – relevant bei Dual-Stack-Post-Mortems
- RFC 8201: PMTUD für IPv6 – häufige Ursache bei VPN- und IPv6-Ausfällen
- Wireshark Dokumentation: Packet Captures als belastbare Beweise im Review
Checkliste: Post-Mortem nach Netzwerkausfällen für nachhaltige Verbesserungen
- Post-Mortem-Pflicht prüfen: Schweregrad, Scope, Security-Relevanz, Wiederholungsfall, Change-bezogen.
- Daten sammeln: Monitoring-Grafen, Logs, Konfig-Diffs, Tickets/Chats, Provider-Infos, Zeitstempel konsolidieren.
- Executive Summary schreiben: Was, Impact, Dauer, primäre Ursache, wichtigste Maßnahme.
- Timeline erstellen: Detection, Acknowledge, Mitigation, Restore, Stabilization – mit Quellen und Ergebnissen.
- Root Cause bestimmen: technisch konkret, ohne Verkürzung; Abgrenzung zu Contributing Factors.
- Contributing Factors herausarbeiten: Monitoring-Gaps, Runbook-Lücken, Change-Probleme, Ownership, Abhängigkeiten.
- Was lief gut/schlecht: konkrete Beispiele (Tools, Kommunikation, Entscheidungen), keine Schuldzuweisungen.
- Action Items definieren: SMART (klar, messbar, Owner, Deadline), Priorität und erwarteter Nutzen.
- Artefakte aktualisieren: Runbooks, Monitoring-Templates, Change-Checklisten, Architektur-Dokumente.
- Umsetzung tracken: regelmäßiger Review der Action Items, Abschlusskriterien, Wirksamkeit messen (MTTR, Wiederholungsrate).
Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte
Cisco Networking • CCNA • Packet Tracer • Network Configuration
Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.
Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.
Leistungsumfang:
-
Netzwerkdesign & Topologie-Planung
-
Router- & Switch-Konfiguration (Cisco IOS)
-
VLAN, Inter-VLAN Routing
-
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
-
NAT, ACL, DHCP, DNS-Konfiguration
-
Troubleshooting & Netzwerkoptimierung
-
Packet Tracer Projektentwicklung & Dokumentation
-
CCNA Lern- & Praxisunterstützung
Lieferumfang:
-
Konfigurationsdateien
-
Packet-Tracer-Dateien (.pkt)
-
Netzwerkdokumentation
-
Schritt-für-Schritt-Erklärungen (auf Wunsch)
Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert
CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.

