Troubleshooting-Runbook für Cisco-Router im 24/7-Betrieb: Struktur und Beispiele

Red Snapper

3 weeks ago

Ein Troubleshooting-Runbook für Cisco-Router im 24/7-Betrieb macht Incident-Response reproduzierbar: Es reduziert MTTR, verhindert „trial-and-error“ im Change-Fenster und sorgt dafür, dass auch Junior-Teams stabile Entscheidungen treffen. Ein gutes Runbook trennt Triage (schnell stabilisieren) von Root-Cause-Analyse (nachgelagert), definiert Eskalationspfade und liefert Copy/Paste-Checks mit klaren Interpretationshinweisen. Dieses Dokument zeigt eine praxistaugliche Runbook-Struktur und konkrete Beispiele für die häufigsten Störungen: Internet weg/langsam, VPN-Abbrüche, Routing-Flaps, hohe CPU und Packet Drops.

Runbook-Struktur: Standardabschnitte für 24/7

Im 24/7-Betrieb ist Konsistenz wichtiger als Vollständigkeit. Nutzen Sie für jeden Incident-Typ die gleiche Struktur, damit Stress nicht zu Fehlern führt.

Scope: betroffene Services/Standorte/Segmente
Impact-Klassifikation: P1–P4 und Business-Auswirkung
Triage: Stabilisierung in 5–15 Minuten (Stop/Go Kriterien)
Diagnose: Hypothesen prüfen (WAN, NAT, DNS, VPN, Routing, Policy)
Mitigation: sichere Sofortmaßnahmen (minimal invasiv)
Eskalation: Provider/SOC/NetEng, Evidence-Anforderungen
Post-Incident: PIR-Daten, Lessons Learned, Template-Fix

Incident-Triage: Quick Snapshot (immer zuerst)

Der Quick Snapshot erzeugt einen konsistenten Datenstand, bevor Änderungen gemacht werden. Speichern Sie Outputs mit Zeitstempel und Ticket-ID.

show clock
show ip interface brief
show interfaces counters errors
show ip route 0.0.0.0
show ip route summary
show ip nat statistics
show ip nat translations
show crypto ikev2 sa
show crypto ipsec sa
show ip sla statistics
show track
show policy-map interface
show ntp status
show logging | last 100
show processes cpu sorted
show processes memory sorted

Interpretationshilfe: Was der Quick Snapshot bedeutet

Der Snapshot ist nur nützlich, wenn Sie ihn schnell interpretieren können. Diese Indikatoren helfen bei der ersten Entscheidung.

Interfaces down: physischer Link/Provider/Portproblem wahrscheinlich
Default-Route fehlt: WAN-Routing/Tracking/Provider-Side Problem
NAT-Translations leer: kein Client-Traffic oder NAT-Regel greift nicht
IPsec SAs down: VPN-Problem (Peer/Policy/Path)
Viele Errors/Drops: Layer1/2 oder Congestion
NTP unsynced: Logs schwer korrelierbar (Compliance/Incident-Risiko)
CPU high: Control Plane Noise, QoS/Crypto, Route-Instabilität

Runbook 1: Internet „weg“ (Standort offline)

Ziel ist zuerst, den Ausfalltyp zu unterscheiden: Link down, Path down oder interne Segmentierung/DNS. Danach folgt die schnellste Mitigation (Failover, Provider-Ticket, Rollback).

Triage-Schritte

Prüfen: WAN-Interface up/down, Default-Route vorhanden
Prüfen: Ping/Traceroute zu externem Target (z. B. 1.1.1.1)
Prüfen: Tracking/IP SLA Status (bei Dual-ISP)
Prüfen: NAT Translations steigen bei Client-Test?

CLI (Internet down)

show ip interface brief
show ip route 0.0.0.0
ping 1.1.1.1 repeat 10
traceroute 1.1.1.1
show ip sla statistics
show track
show ip nat translations
show logging | include LINEPROTO|LINK-|IPSLAs

Mitigation (sicher, typisch)

Wenn Dual-ISP: Failover aktivieren/trigger prüfen (Tracking)
Wenn Link down: Provider-Ticket mit Circuit-ID + Evidence
Wenn Default fehlt: Routing/Policy/Tracking prüfen, ggf. Rollback

Runbook 2: Internet „langsam“ (Latenz, Packet Loss, Congestion)

Langsamkeit ist meist Congestion oder Layer1/2 Errors. Ziel ist, Drops/Queues zu finden, QoS/Traffic-Spitzen zu identifizieren und kurzfristig zu stabilisieren.

Triage-Schritte

Prüfen: Interface Errors (CRC), Output Drops, Queue Drops
Prüfen: QoS Policy-Zähler, Drops in Echtzeitklassen
Prüfen: RTT/Loss über IP SLA oder Ping-Serien

CLI (Performance)

show interfaces counters errors
show interfaces | include output drops|queue
show policy-map interface
show ip sla statistics
ping 1.1.1.1 repeat 20
show processes cpu sorted

Mitigation

Wenn Congestion: QoS prüfen, Bulk drosseln, Shaping validieren
Wenn CRC/Errors: Kabel/SFP/Port/Provider CPE prüfen, Provider eskalieren

Runbook 3: VPN-Abbrüche (Site-to-Site instabil)

VPN-Abbrüche entstehen häufig durch Path-Instabilität, Rekey/DPD Probleme oder MTU/MSS. Ziel ist, SA-Status, Paketzähler und Log-Hinweise zu prüfen und zwischen „VPN“ und „WAN“ zu trennen.

Triage-Schritte

Prüfen: IKEv2 SA up? IPsec SA up? Paketzähler steigen?
Prüfen: Logs auf Rekey/DPD Fehler
Prüfen: WAN RTT/Loss (IP SLA), Interface Errors/Drops

CLI (VPN)

show crypto ikev2 sa
show crypto ipsec sa
show crypto session detail
show logging | include IKEV2|IPSEC|CRYPTO
show ip sla statistics
show interfaces counters errors

Mitigation

Wenn SA down: Peer-Erreichbarkeit und Policy-Match prüfen, ggf. Failover (Dual-Hub)
Wenn SA up aber kein Traffic: No-NAT/Selektoren/Routing prüfen

Runbook 4: Routing-Probleme (OSPF/BGP Flaps, Default fehlt)

Routing-Flaps sind im 24/7-Betrieb kritisch, weil sie Micro-Outages erzeugen. Ziel ist, Neighbor-Status, Logs und Interface-Stabilität zu prüfen und Instabilitätsquellen zu isolieren.

Triage-Schritte

Prüfen: Neighbor up/down, Anzahl Sessions stabil?
Prüfen: Default-Route vorhanden und korrekt
Prüfen: Logs auf wiederkehrende Neighbor Events

CLI (Routing)

show ip route 0.0.0.0
show ip route summary
show ip ospf neighbor
show bgp summary
show logging | include OSPF|BGP|LINEPROTO|LINK-
show interfaces counters errors

Mitigation

Wenn Interface instabil: Layer1/2 fixen, bevor Routing getuned wird
Wenn BGP max-prefix/policy: Session stabilisieren, Provider kontaktieren
Wenn OSPF: unerwartete Neighbors (passive-interface) prüfen

Runbook 5: Hohe CPU / Router „träge“ (Control Plane Stress)

Hohe CPU kann aus Routing-Stürmen, Control-Plane-Scans oder Crypto/QoS Last entstehen. Ziel ist, Top-Prozesse zu identifizieren, Logs zu prüfen und Control Plane zu schützen.

Triage-Schritte

Prüfen: CPU sorted, CPU history
Prüfen: Logs auf Flaps/Scan-Indikatoren
Prüfen: CoPP/Control-Plane Policy (wenn vorhanden)

CLI (CPU)

show processes cpu sorted
show processes cpu history
show logging | last 100
show policy-map control-plane

Mitigation

Wenn Scan/Noise: MGMT-ACLs prüfen, CoPP aktivieren/tunen (Change-Policy beachten)
Wenn Routing-Storm: Flap-Quelle finden (Interface/Neighbor), stabilisieren

Runbook 6: Segmentierungs-/Policy-Probleme (ACL/NAT „bricht Apps“)

Nach Changes an ACL/NAT sind „Apps kaputt“ häufig. Ziel ist, zu prüfen, ob die Policy-Matrix eingehalten ist, ob DNS/NTP fehlt und ob NAT/No-NAT korrekt greift.

Triage-Schritte

Prüfen: ACL Counter steigen? Blockt sie unerwartete Ziele?
Prüfen: DNS erreichbar, NTP ok (sonst Zertifikate/Logs)
Prüfen: NAT Translations, No-NAT für VPN

CLI (Policy)

show access-lists
show ip nat statistics
show ip nat translations
show logging | include DENY|ACL
show crypto ipsec sa

Mitigation

Wenn falsche Denies: Ausnahme über Change-Prozess, nicht ad hoc „permit any“
Wenn DNS/NTP fehlt: Baseline-Services erlauben (Policy-Template nachziehen)

Eskalationspfad: Welche Evidence ein 24/7 Ticket immer enthalten muss

Eskalation funktioniert nur mit belastbaren Daten. Definieren Sie Minimum Evidence, das jedes Ticket (Provider/NetEng/SOC) enthalten muss.

Zeitstempel (show clock), NTP Status
Interface Status + Errors/Drops
Default-Route/Route-Summary
Relevante Protokolle: OSPF/BGP Neighbors, VPN SAs
Log-Auszug (letzte 100 Zeilen oder Filter auf Event)
Circuit-ID/Providerdaten (bei WAN-Incident)

CLI: Evidence-Kompakt (Copy/Paste)

show clock
show ntp status
show ip interface brief
show interfaces counters errors
show ip route 0.0.0.0
show ip route summary
show ip ospf neighbor
show bgp summary
show crypto ipsec sa
show ip sla statistics
show track
show logging | last 100

Post-Incident: Was im PIR aus dem Runbook zurückfließen muss

Ein Runbook ist lebendig. Nach jedem größeren Incident sollten Erkenntnisse in Templates, Monitoring und Policies zurückgeführt werden, damit die gleiche Störung seltener wird.

Neue Alarmregeln (z. B. IP SLA Degradation, Neighbor Flaps)
Template-Fixes (NTP/Syslog/ACL Baselines, Tracking Defaults)
Runbook-Erweiterung (neue Checks, bessere Interpretation)
Exception-Register bereinigen (temporäre Regeln entfernen)

Konfiguriere Cisco Router & Switches und liefere ein Packet-Tracer-Lab (CCNA)

Hallo! Ich bin ein CCNA-Network Engineer und unterstütze Sie bei Cisco Router- und Switch-Konfigurationen – inklusive eines vollständigen Cisco Packet-Tracer-Labs (.pkt). Ideal für Lern-/Übungsszenarien, Validierung oder eine saubere Demo-Topologie.

Was ich (je nach Paket) umsetze

Switching: VLANs, Trunking (802.1Q), Port-Zuweisung, STP-Basics (PortFast/BPDU Guard wo sinnvoll)
Routing: Default/Static Routing oder OSPF, Inter-VLAN Routing (Router-on-a-Stick)
Services: DHCP (Pools/Scopes), NAT/PAT für Internet-Simulation
Optional Security: Basic ACLs und SSH-Hardening
Test & Verifikation: Ping/Traceroute + wichtige Show-Commands (mit erwarteten Ergebnissen)

Sie erhalten

✅ Packet Tracer .pkt Datei
✅ Saubere Konfigurations-Notizen pro Gerät
✅ Verifikations-Checkliste + erwartete Outputs
✅ Kurze Dokumentation (wie die Topologie funktioniert)

Bitte schreiben Sie mir vor der Bestellung, damit wir Scope, Packet-Tracer-Version, Geräteanzahl und Deadline klären.

Konfiguriere Cisco Router & Switches | Cisco Packet-Tracer-Labs. Finden Sie mich auf Fiverr.