IOS XE Logging & Tracebacks: Crash-Diagnose und sinnvolle Next Steps

Red Snapper

3 months ago

Wenn IOS XE „komisch“ wird oder sogar crasht, sind Logs und Tracebacks deine wichtigste Beweisquelle. Der Unterschied zwischen „kurzem Glitch“ und „reproduzierbarem Software-/Plattformproblem“ liegt fast immer in den Details: Reload Reason, Crash-Indizien, Tracebacks, Prozess-Restarts und zeitliche Korrelation mit Events (BGP/OSPF, VPN, Interface-Flaps). Ein guter Workflow sammelt Evidence sauber (ohne weitere Instabilität zu erzeugen), ordnet sie nach Schwere ein und leitet daraus sinnvolle Next Steps ab: Mitigation, Bug-Check/Upgrade, TAC-Case.

Was ein Traceback ist (praktisch erklärt)

Ein Traceback ist ein Stack-Trace: IOS XE protokolliert, welche Funktionsaufrufe zum Fehler geführt haben. Tracebacks sind kein „Endurteil“, aber extrem hilfreich, um Bugs zu identifizieren und TAC/Engineering eine klare Richtung zu geben.

Traceback = Funktionskette zum Zeitpunkt des Fehlers
Wertvoll für: Bug-Matching, Root-Cause-Eingrenzung
Wichtig: Zeitstempel + begleitende Logs sind entscheidend

Erste Einordnung: Crash, Prozess-Restart oder nur Warnung?

IOS XE kann auf unterschiedliche Weise „scheitern“: kompletter Reload, partieller Prozess-Restart (z. B. Subsystem) oder nur eine Warnung. Diese Unterscheidung bestimmt, wie aggressiv du handeln musst.

Reload/Crash: Device rebooted, Traffic war unterbrochen
Partial Restart: einzelne Komponenten restarteten, evtl. nur „Flaps“
Warning: kein Crash, aber Indiz für Bug/Resource-Druck

Erste Checks

show version
show platform
show logging | last 200

Evidence Capture: Was du sofort sichern solltest

Nach einem Crash oder bei wiederkehrenden Tracebacks musst du Evidence sichern, bevor Ringbuffer überschrieben werden. Das Ziel ist ein TAC-taugliches Bundle: Version, Plattformstatus, Logs, Crash-Infos und Konfiguration.

Version/Uptime/Reload Reason
Crash-/Traceback-Logs (mit Zeitfenster)
Platform-Status (Module/Control-Processor)
CPU/Memory-Indizien (Spikes/Leaks)
Konfiguration (Running/Startup) und letzte Changes

Evidence Bundle (Copy & Paste)

show clock
show version
show platform
show platform software status control-processor brief
show processes cpu sorted
show processes memory sorted
show logging | last 500
show running-config
show tech-support

Logs richtig lesen: Welche Muster sind „Crash-Indizien“?

In IOS XE sind nicht alle Meldungen gleich wertvoll. Konzentriere dich auf klare Crash-/Restart-Signale und deren Kontext kurz davor. Die relevanten Zeilen stehen oft einige Sekunden bis Minuten vor dem eigentlichen Event.

Keywords: CRASH, TRACEBACK, SYS-*, PLATFORM, WATCHDOG
Prozess-Resets: „process restarted“, „killed“, „segfault“ (plattformabhängig)
Kernel-/Plattformmeldungen bei Hardware-/Driver-Problemen

Gezielt nach Crash-Indizien filtern

show logging | include CRASH|TRACEBACK|WATCHDOG|PLATFORM|SYS-|SEGFAULT|RESTART

Reload Reason: die wichtigste Zeile nach einem Reboot

Wenn das Gerät neu gestartet hat, ist der Reload Reason der schnellste Hinweis auf Ursache: manuell, power, watchdog, crash. Das ist essenziell für das Post-Mortem und für die Entscheidung „TAC/Upgrade vs. Betrieb“.

Reload Reason prüfen

show version | include uptime|Last reload|System returned
show logging | include RELOAD|BOOT|SYS-

Tracebacks operational nutzen: Kontext + Reproduzierbarkeit

Ein einzelner Traceback kann einmalig sein. Wiederholte Tracebacks mit gleichem Muster (gleiche Funktionskette/gleichen Prozess) sind ein starkes Bug-Indiz. Dokumentiere daher immer: Zeitpunkt, Trigger, betroffene Features, und ob es reproduzierbar ist.

Wann tritt es auf? (z. B. Rekey, BGP flap, NetFlow export)
Welcher Prozess/Feature ist im Umfeld aktiv?
Wie oft und in welchem Intervall tritt es auf?
Welche Konfigänderung davor?

Correlate: Logs mit Routing/VPN/Interface Events verbinden

Viele Crash-Indizien hängen an konkreten Ereignissen: Neighbor down/up, IPsec Rekey, Interface Flap, Policy-Change. Die Zeitkorrelation ist oft der Schlüssel, um die Trigger-Funktion zu finden.

Routing-Korrelation

show logging | include OSPF|BGP|ADJCHG|NEIGHBOR
show ip ospf neighbor
show ip bgp summary

VPN-Korrelation

show logging | include ISAKMP|IKE|IPSEC|DPD
show crypto isakmp sa
show crypto ipsec sa

Interface-Korrelation

show logging | include LINEPROTO|LINK-|Interface
show interfaces | include CRC|drops|error

„Sinnvolle Next Steps“: Entscheiden statt nur sammeln

Nach Evidence Capture brauchst du eine klare Entscheidung, die Betrieb stabil hält. Je nach Schwere sind die nächsten Schritte unterschiedlich: Mitigation, Upgrade-Plan, TAC-Case oder kontrollierter Reload.

Einmalig, kein Impact: beobachten, Evidence sichern, Monitoring schärfen
Wiederkehrend, leichter Impact: Trigger isolieren, Feature togglen, Upgrade planen
Crash/Outage: sofort TAC-Case, Bug-Advisories prüfen, schnelle Mitigation

Mitigation ohne Downtime: Wie du Stabilität „zurückkaufst“

Wenn der Router unter Druck ist, hilft oft eine temporäre Entlastung, bis ein Upgrade/SMU möglich ist. Ziel: Trigger reduzieren, ohne Core-Funktion zu verlieren.

Management-Exposure reduzieren (VTY ACL, SNMP Scope)
CoPP aktivieren/verschärfen bei Control-Plane-Floods
NetFlow Sampling reduzieren oder temporär deaktivieren (wenn relevant)
Problematische Feature-Kombination isolieren (z. B. PBR auf Teiltraffic)

CoPP/CPU prüfen

show policy-map control-plane
show processes cpu sorted

TAC-taugliches Paket: Was du bereitstellen solltest

Wenn du einen Cisco TAC Case eröffnest, beschleunigst du die Analyse massiv, wenn du sofort die richtigen Artefakte lieferst. Das reduziert Rückfragen und verkürzt Time-to-Fix.

show tech-support (zeitnah nach Event)
Log-Auszug mit Zeitfenster (vor/nach Crash)
show version, show platform, Reload Reason
Konfiguration (oder relevante Sections: routing, vpn, qos, copp)
Beschreibung: Trigger, Häufigkeit, Impact, letzte Changes

Export/Backup (Beispiel)

copy running-config scp:
copy startup-config scp:
! Falls Logs exportiert werden: je nach Setup Syslog-Server verwenden

Prevent: Logging-Design, damit du beim nächsten Mal bessere Daten hast

Crash-Diagnose wird einfacher, wenn Logging vorher sauber ist: NTP, zentrale Syslog-Sammlung, passende Severity und ausreichend Buffer. Ohne das fehlen dir Zeit und Kontext.

NTP + log timestamps
Syslog zentral + logging source-interface
Buffered Logging mit sinnvoller Größe
Console Logging reduzieren (Noise vermeiden)

Logging-Baseline

service timestamps log datetime msec localtime
ntp server 10.255.0.10 prefer
logging host 10.255.0.20
logging source-interface loopback0
logging trap warnings
logging buffered 32768 warnings
no logging console

Quick-Runbook: Crash/Traceback in 10 Minuten sauber abarbeiten

Diese Sequenz ist als Incident-Checkliste gedacht: Evidence sammeln, Ursache eingrenzen, Next Steps ableiten.

show clock
show version
show platform
show platform software status control-processor brief
show processes cpu sorted
show processes memory sorted
show logging | include CRASH|TRACEBACK|WATCHDOG|PLATFORM|SYS-|RESTART
show logging | last 500
show ip ospf neighbor
show ip bgp summary
show crypto isakmp sa
show crypto ipsec sa
show tech-support
copy running-config scp:

Konfiguration speichern

Router# copy running-config startup-config

Konfiguriere Cisco Router & Switches und liefere ein Packet-Tracer-Lab (CCNA)

Hallo! Ich bin ein CCNA-Network Engineer und unterstütze Sie bei Cisco Router- und Switch-Konfigurationen – inklusive eines vollständigen Cisco Packet-Tracer-Labs (.pkt). Ideal für Lern-/Übungsszenarien, Validierung oder eine saubere Demo-Topologie.

Was ich (je nach Paket) umsetze

Switching: VLANs, Trunking (802.1Q), Port-Zuweisung, STP-Basics (PortFast/BPDU Guard wo sinnvoll)
Routing: Default/Static Routing oder OSPF, Inter-VLAN Routing (Router-on-a-Stick)
Services: DHCP (Pools/Scopes), NAT/PAT für Internet-Simulation
Optional Security: Basic ACLs und SSH-Hardening
Test & Verifikation: Ping/Traceroute + wichtige Show-Commands (mit erwarteten Ergebnissen)

Sie erhalten

✅ Packet Tracer .pkt Datei
✅ Saubere Konfigurations-Notizen pro Gerät
✅ Verifikations-Checkliste + erwartete Outputs
✅ Kurze Dokumentation (wie die Topologie funktioniert)

Bitte schreiben Sie mir vor der Bestellung, damit wir Scope, Packet-Tracer-Version, Geräteanzahl und Deadline klären.

Konfiguriere Cisco Router & Switches | Cisco Packet-Tracer-Labs. Finden Sie mich auf Fiverr.