Routing-Runbook fürs NOC: Struktur von Triage bis RCA

Ein Routing-Runbook für das Network Operations Center (NOC) ist ein zentrales Werkzeug, um Netzwerkstörungen effizient zu triagieren, zu analysieren und nachhaltig zu beheben. Es dient als strukturierter Leitfaden von der ersten Alarmierung über die Fehlerbehebung bis zur Root Cause Analysis (RCA). Durch standardisierte Prozesse lassen sich Ausfallzeiten minimieren, Verantwortlichkeiten klar zuordnen und Knowledge Management im Team etablieren.

Struktur des Routing-Runbooks

Das Runbook sollte modular aufgebaut sein und klar zwischen Alarmierung, Triage, Analyse, Eskalation und RCA unterscheiden. Dies ermöglicht NOC-Teams eine schnelle Orientierung und effizientes Handeln.

1. Alarmierung und Event-Erkennung

Der erste Schritt im Runbook ist die Erkennung und Kategorisierung von Events. Dies umfasst:

  • Integration von Syslog, SNMP-Traps und Telemetry-Daten
  • Monitoring von Routing-Protokollen wie OSPF, BGP und EIGRP
  • Erfassung von Datenplan-Problemen: Packet Loss, High Latency, Interface Errors
  • Alert-Klassifikation: Info, Warning, Critical

Beispielhafte CLI-Befehle zur Überprüfung von Routing-Status:

show ip route summary
show ip bgp summary
show ip ospf neighbor
show processes cpu
show interfaces counters errors

2. Triage und Initial Assessment

Nach der Alarmierung erfolgt die Triage. Ziel ist es, die Schwere zu bestimmen, Auswirkungen einzuschätzen und erste Maßnahmen einzuleiten.

  • Überprüfung von betroffenen Prefixes, VRFs oder Routing-Protokoll-Bereichen
  • Identifikation von Scope: lokal, edge, core oder Multi-Domain
  • Bestimmung des Impact auf Services (Voice, Data, VPNs, Cloud-Anbindungen)
  • Initiale Entscheidung: Remediation sofort oder Eskalation an Tier-2/3

3. Datenakquise für tiefere Analyse

Für ein fundiertes Troubleshooting werden mehrere Datenquellen benötigt:

  • Control-Plane-Daten: Routing Table, BGP RIB/FIB, OSPF LSDB
  • Data-Plane-Daten: NetFlow / sFlow, Interface Statistics, Packet Captures
  • Event Logs: Syslog, SNMP Traps, Platform Logs
  • Topology- und Policy-Dokumentation: VRF-Tabellen, Route Maps, ACLs

Beispiel CLI zur Datensammlung:

show ip route vrf 
show ip bgp vpnv4 all
show ip ospf database
show logging
show policy-map interface

4. Fehleranalyse und Remediation

Die Analyse erfolgt schrittweise von einfachen Checks bis zu komplexen Korrelationen:

  • Neighbor Status prüfen: flapping, down, stuck in EXSTART/EXCHANGE
  • Routenpfade analysieren: ECMP-Verteilung, AS-Path, MED, Local Preference
  • Policy Checks: Route Maps, Prefix Lists, Community Filtering
  • Configuration Drift prüfen: Abgleich mit Golden Config Templates

Beispielhafte Remediation-Befehle:

clear ip bgp 
clear ip ospf process
clear ip route *
configure terminal
 no ip route  
 ip route   

5. Escalation Guidelines

Definierte Eskalationspunkte sorgen dafür, dass kritische Vorfälle schnell an Senior Engineers oder Design Teams weitergegeben werden:

  • Tier-1 NOC initial: einfache Remediations, Dokumentation
  • Tier-2 / Routing Specialist: komplexe BGP / OSPF / VRF Issues
  • Tier-3 / Vendor Support: Software-Bugs, Hardware-Failures, Inter-Vendor Issues

6. Root Cause Analysis (RCA)

Nach Stabilisierung des Vorfalls folgt die RCA-Phase, um zukünftige Ausfälle zu vermeiden:

  • Zeitleiste aller Events dokumentieren: Flaps, CPU-Spikes, Interface-Down
  • Analyse der Kette von Ursachen bis zu Symptomen
  • Empfehlungen für Design- oder Konfigurationsänderungen
  • Abgleich mit Policies: Compliance und Golden Config

RCA-Beispieltabellen können wie folgt aussehen:

| Time       | Event                        | Source      | Action Taken           |
|------------|------------------------------|------------|-----------------------|
| 10:05      | BGP neighbor flap            | PEER1      | clear ip bgp PEER1    |
| 10:06      | Prefix  withdrawn          | Local RIB  | Verified propagation  |
| 10:10      | Neighbor re-established       | PEER1      | Monitor stability      |

7. Reporting und Knowledge Management

Abschließend werden alle Vorfälle in einem Knowledge Base System dokumentiert:

  • Incident Summary: Problem, Impact, Action, RCA
  • Lessons Learned: Best Practices, Config Adjustments
  • Trend-Analyse: Häufigkeit von Route Flaps, Prefix Instabilities
  • Integration in NOC-Dashboards: KPI-Tracking für Routing Stability

Best Practices für NOC Routing Runbooks

  • Modularer Aufbau: Alarmierung, Triage, Analyse, Remediation, RCA
  • Standardisierte CLI-Checks und Remediation-Befehle
  • Integration von Telemetry und Log-Daten für schnelle Diagnose
  • Regelmäßige Updates entsprechend Netzwerk-Changes und Design-Reviews
  • Klare Eskalationspfade und Verantwortlichkeiten
  • Dokumentation von Lessons Learned und kontinuierliche Verbesserung

Fazit

Ein strukturiertes Routing-Runbook im NOC ermöglicht eine schnelle, konsistente und nachvollziehbare Bearbeitung von Routing-Vorfällen. Durch die Kombination von Alarmierung, Triage, datenbasierter Analyse und RCA entsteht eine effiziente Feedback-Schleife, die Stabilität, Sicherheit und Betriebskontinuität im Netzwerk sicherstellt.

Konfiguriere Cisco Router & Switches und liefere ein Packet-Tracer-Lab (CCNA)

Hallo! Ich bin ein CCNA-Network Engineer und unterstütze Sie bei Cisco Router- und Switch-Konfigurationen – inklusive eines vollständigen Cisco Packet-Tracer-Labs (.pkt). Ideal für Lern-/Übungsszenarien, Validierung oder eine saubere Demo-Topologie.

Was ich (je nach Paket) umsetze

  • Switching: VLANs, Trunking (802.1Q), Port-Zuweisung, STP-Basics (PortFast/BPDU Guard wo sinnvoll)

  • Routing: Default/Static Routing oder OSPF, Inter-VLAN Routing (Router-on-a-Stick)

  • Services: DHCP (Pools/Scopes), NAT/PAT für Internet-Simulation

  • Optional Security: Basic ACLs und SSH-Hardening

  • Test & Verifikation: Ping/Traceroute + wichtige Show-Commands (mit erwarteten Ergebnissen)

Sie erhalten

  • Packet Tracer .pkt Datei

  • ✅ Saubere Konfigurations-Notizen pro Gerät

  • ✅ Verifikations-Checkliste + erwartete Outputs

  • ✅ Kurze Dokumentation (wie die Topologie funktioniert)

Bitte schreiben Sie mir vor der Bestellung, damit wir Scope, Packet-Tracer-Version, Geräteanzahl und Deadline klären.

Konfiguriere Cisco Router & Switches | Cisco Packet-Tracer-Labs. Finden Sie mich auf Fiverr.

Related Articles