Ein Troubleshooting-Runbook für Cisco-Router im 24/7-Betrieb macht Incident-Response reproduzierbar: Es reduziert MTTR, verhindert „trial-and-error“ im Change-Fenster und sorgt dafür, dass auch Junior-Teams stabile Entscheidungen treffen. Ein gutes Runbook trennt Triage (schnell stabilisieren) von Root-Cause-Analyse (nachgelagert), definiert Eskalationspfade und liefert Copy/Paste-Checks mit klaren Interpretationshinweisen. Dieses Dokument zeigt eine praxistaugliche Runbook-Struktur und konkrete Beispiele für die häufigsten Störungen: Internet weg/langsam, VPN-Abbrüche, Routing-Flaps, hohe CPU und Packet Drops.
Runbook-Struktur: Standardabschnitte für 24/7
Im 24/7-Betrieb ist Konsistenz wichtiger als Vollständigkeit. Nutzen Sie für jeden Incident-Typ die gleiche Struktur, damit Stress nicht zu Fehlern führt.
- Scope: betroffene Services/Standorte/Segmente
- Impact-Klassifikation: P1–P4 und Business-Auswirkung
- Triage: Stabilisierung in 5–15 Minuten (Stop/Go Kriterien)
- Diagnose: Hypothesen prüfen (WAN, NAT, DNS, VPN, Routing, Policy)
- Mitigation: sichere Sofortmaßnahmen (minimal invasiv)
- Eskalation: Provider/SOC/NetEng, Evidence-Anforderungen
- Post-Incident: PIR-Daten, Lessons Learned, Template-Fix
Incident-Triage: Quick Snapshot (immer zuerst)
Der Quick Snapshot erzeugt einen konsistenten Datenstand, bevor Änderungen gemacht werden. Speichern Sie Outputs mit Zeitstempel und Ticket-ID.
show clock
show ip interface brief
show interfaces counters errors
show ip route 0.0.0.0
show ip route summary
show ip nat statistics
show ip nat translations
show crypto ikev2 sa
show crypto ipsec sa
show ip sla statistics
show track
show policy-map interface
show ntp status
show logging | last 100
show processes cpu sorted
show processes memory sorted
Interpretationshilfe: Was der Quick Snapshot bedeutet
Der Snapshot ist nur nützlich, wenn Sie ihn schnell interpretieren können. Diese Indikatoren helfen bei der ersten Entscheidung.
- Interfaces down: physischer Link/Provider/Portproblem wahrscheinlich
- Default-Route fehlt: WAN-Routing/Tracking/Provider-Side Problem
- NAT-Translations leer: kein Client-Traffic oder NAT-Regel greift nicht
- IPsec SAs down: VPN-Problem (Peer/Policy/Path)
- Viele Errors/Drops: Layer1/2 oder Congestion
- NTP unsynced: Logs schwer korrelierbar (Compliance/Incident-Risiko)
- CPU high: Control Plane Noise, QoS/Crypto, Route-Instabilität
Runbook 1: Internet „weg“ (Standort offline)
Ziel ist zuerst, den Ausfalltyp zu unterscheiden: Link down, Path down oder interne Segmentierung/DNS. Danach folgt die schnellste Mitigation (Failover, Provider-Ticket, Rollback).
Triage-Schritte
- Prüfen: WAN-Interface up/down, Default-Route vorhanden
- Prüfen: Ping/Traceroute zu externem Target (z. B. 1.1.1.1)
- Prüfen: Tracking/IP SLA Status (bei Dual-ISP)
- Prüfen: NAT Translations steigen bei Client-Test?
CLI (Internet down)
show ip interface brief
show ip route 0.0.0.0
ping 1.1.1.1 repeat 10
traceroute 1.1.1.1
show ip sla statistics
show track
show ip nat translations
show logging | include LINEPROTO|LINK-|IPSLAs
Mitigation (sicher, typisch)
- Wenn Dual-ISP: Failover aktivieren/trigger prüfen (Tracking)
- Wenn Link down: Provider-Ticket mit Circuit-ID + Evidence
- Wenn Default fehlt: Routing/Policy/Tracking prüfen, ggf. Rollback
Runbook 2: Internet „langsam“ (Latenz, Packet Loss, Congestion)
Langsamkeit ist meist Congestion oder Layer1/2 Errors. Ziel ist, Drops/Queues zu finden, QoS/Traffic-Spitzen zu identifizieren und kurzfristig zu stabilisieren.
Triage-Schritte
- Prüfen: Interface Errors (CRC), Output Drops, Queue Drops
- Prüfen: QoS Policy-Zähler, Drops in Echtzeitklassen
- Prüfen: RTT/Loss über IP SLA oder Ping-Serien
CLI (Performance)
show interfaces counters errors
show interfaces | include output drops|queue
show policy-map interface
show ip sla statistics
ping 1.1.1.1 repeat 20
show processes cpu sorted
Mitigation
- Wenn Congestion: QoS prüfen, Bulk drosseln, Shaping validieren
- Wenn CRC/Errors: Kabel/SFP/Port/Provider CPE prüfen, Provider eskalieren
Runbook 3: VPN-Abbrüche (Site-to-Site instabil)
VPN-Abbrüche entstehen häufig durch Path-Instabilität, Rekey/DPD Probleme oder MTU/MSS. Ziel ist, SA-Status, Paketzähler und Log-Hinweise zu prüfen und zwischen „VPN“ und „WAN“ zu trennen.
Triage-Schritte
- Prüfen: IKEv2 SA up? IPsec SA up? Paketzähler steigen?
- Prüfen: Logs auf Rekey/DPD Fehler
- Prüfen: WAN RTT/Loss (IP SLA), Interface Errors/Drops
CLI (VPN)
show crypto ikev2 sa
show crypto ipsec sa
show crypto session detail
show logging | include IKEV2|IPSEC|CRYPTO
show ip sla statistics
show interfaces counters errors
Mitigation
- Wenn SA down: Peer-Erreichbarkeit und Policy-Match prüfen, ggf. Failover (Dual-Hub)
- Wenn SA up aber kein Traffic: No-NAT/Selektoren/Routing prüfen
Runbook 4: Routing-Probleme (OSPF/BGP Flaps, Default fehlt)
Routing-Flaps sind im 24/7-Betrieb kritisch, weil sie Micro-Outages erzeugen. Ziel ist, Neighbor-Status, Logs und Interface-Stabilität zu prüfen und Instabilitätsquellen zu isolieren.
Triage-Schritte
- Prüfen: Neighbor up/down, Anzahl Sessions stabil?
- Prüfen: Default-Route vorhanden und korrekt
- Prüfen: Logs auf wiederkehrende Neighbor Events
CLI (Routing)
show ip route 0.0.0.0
show ip route summary
show ip ospf neighbor
show bgp summary
show logging | include OSPF|BGP|LINEPROTO|LINK-
show interfaces counters errors
Mitigation
- Wenn Interface instabil: Layer1/2 fixen, bevor Routing getuned wird
- Wenn BGP max-prefix/policy: Session stabilisieren, Provider kontaktieren
- Wenn OSPF: unerwartete Neighbors (passive-interface) prüfen
Runbook 5: Hohe CPU / Router „träge“ (Control Plane Stress)
Hohe CPU kann aus Routing-Stürmen, Control-Plane-Scans oder Crypto/QoS Last entstehen. Ziel ist, Top-Prozesse zu identifizieren, Logs zu prüfen und Control Plane zu schützen.
Triage-Schritte
- Prüfen: CPU sorted, CPU history
- Prüfen: Logs auf Flaps/Scan-Indikatoren
- Prüfen: CoPP/Control-Plane Policy (wenn vorhanden)
CLI (CPU)
show processes cpu sorted
show processes cpu history
show logging | last 100
show policy-map control-plane
Mitigation
- Wenn Scan/Noise: MGMT-ACLs prüfen, CoPP aktivieren/tunen (Change-Policy beachten)
- Wenn Routing-Storm: Flap-Quelle finden (Interface/Neighbor), stabilisieren
Runbook 6: Segmentierungs-/Policy-Probleme (ACL/NAT „bricht Apps“)
Nach Changes an ACL/NAT sind „Apps kaputt“ häufig. Ziel ist, zu prüfen, ob die Policy-Matrix eingehalten ist, ob DNS/NTP fehlt und ob NAT/No-NAT korrekt greift.
Triage-Schritte
- Prüfen: ACL Counter steigen? Blockt sie unerwartete Ziele?
- Prüfen: DNS erreichbar, NTP ok (sonst Zertifikate/Logs)
- Prüfen: NAT Translations, No-NAT für VPN
CLI (Policy)
show access-lists
show ip nat statistics
show ip nat translations
show logging | include DENY|ACL
show crypto ipsec sa
Mitigation
- Wenn falsche Denies: Ausnahme über Change-Prozess, nicht ad hoc „permit any“
- Wenn DNS/NTP fehlt: Baseline-Services erlauben (Policy-Template nachziehen)
Eskalationspfad: Welche Evidence ein 24/7 Ticket immer enthalten muss
Eskalation funktioniert nur mit belastbaren Daten. Definieren Sie Minimum Evidence, das jedes Ticket (Provider/NetEng/SOC) enthalten muss.
- Zeitstempel (show clock), NTP Status
- Interface Status + Errors/Drops
- Default-Route/Route-Summary
- Relevante Protokolle: OSPF/BGP Neighbors, VPN SAs
- Log-Auszug (letzte 100 Zeilen oder Filter auf Event)
- Circuit-ID/Providerdaten (bei WAN-Incident)
CLI: Evidence-Kompakt (Copy/Paste)
show clock
show ntp status
show ip interface brief
show interfaces counters errors
show ip route 0.0.0.0
show ip route summary
show ip ospf neighbor
show bgp summary
show crypto ipsec sa
show ip sla statistics
show track
show logging | last 100
Post-Incident: Was im PIR aus dem Runbook zurückfließen muss
Ein Runbook ist lebendig. Nach jedem größeren Incident sollten Erkenntnisse in Templates, Monitoring und Policies zurückgeführt werden, damit die gleiche Störung seltener wird.
- Neue Alarmregeln (z. B. IP SLA Degradation, Neighbor Flaps)
- Template-Fixes (NTP/Syslog/ACL Baselines, Tracking Defaults)
- Runbook-Erweiterung (neue Checks, bessere Interpretation)
- Exception-Register bereinigen (temporäre Regeln entfernen)
Konfiguriere Cisco Router & Switches und liefere ein Packet-Tracer-Lab (CCNA)
Hallo! Ich bin ein CCNA-Network Engineer und unterstütze Sie bei Cisco Router- und Switch-Konfigurationen – inklusive eines vollständigen Cisco Packet-Tracer-Labs (.pkt). Ideal für Lern-/Übungsszenarien, Validierung oder eine saubere Demo-Topologie.
Was ich (je nach Paket) umsetze
-
Switching: VLANs, Trunking (802.1Q), Port-Zuweisung, STP-Basics (PortFast/BPDU Guard wo sinnvoll)
-
Routing: Default/Static Routing oder OSPF, Inter-VLAN Routing (Router-on-a-Stick)
-
Services: DHCP (Pools/Scopes), NAT/PAT für Internet-Simulation
-
Optional Security: Basic ACLs und SSH-Hardening
-
Test & Verifikation: Ping/Traceroute + wichtige Show-Commands (mit erwarteten Ergebnissen)
Sie erhalten
-
✅ Packet Tracer .pkt Datei
-
✅ Saubere Konfigurations-Notizen pro Gerät
-
✅ Verifikations-Checkliste + erwartete Outputs
-
✅ Kurze Dokumentation (wie die Topologie funktioniert)
Bitte schreiben Sie mir vor der Bestellung, damit wir Scope, Packet-Tracer-Version, Geräteanzahl und Deadline klären.
Konfiguriere Cisco Router & Switches | Cisco Packet-Tracer-Labs. Finden Sie mich auf Fiverr.

