Troubleshooting im Rechenzentrum ist heute fast immer Troubleshooting in einer Spine-Leaf-Architektur: Viele parallele Pfade (ECMP), kurze Hop-Distanzen, hohe Bandbreiten, Overlays wie VXLAN/EVPN und ein stark automatisierter Betrieb sorgen für enorme Robustheit – aber auch für Fehlerbilder, die ohne Systematik schwer greifbar sind. Typische Tickets lauten dann nicht „Link down“, sondern „nur einige Verbindungen sind langsam“, „ein einzelnes Rack hat sporadische Drops“, „East-West-Traffic bricht unter Last ein“, oder „ein Service ist nur aus bestimmten Subnetzen erreichbar“. Genau hier hilft ein spine-leaf-spezifisches Vorgehen: Sie müssen schnell entscheiden, ob das Problem im Underlay (BGP/IS-IS, Link, ECMP), im Overlay (VXLAN/EVPN, VNI/VRF), in der Host-Anbindung (Bond/LACP, MTU, NIC-Offloads), oder in Policies (ACL, QoS, Security Groups, uRPF/CoPP) entsteht. Dieser Artikel zeigt praxisnah, wie Sie die häufigsten Spine-Leaf Fehlerbilder in Minuten eingrenzen – mit klaren Beweisen statt Bauchgefühl, und mit einer Toolchain, die sich im Incident zuverlässig anwenden lässt.
Spine-Leaf kurz eingeordnet: Was an der Architektur Troubleshooting verändert
In klassischen dreistufigen Designs gab es oft eindeutige Pfade und zentrale Engpässe. In Spine-Leaf ist das Gegenteil der Fall: Traffic verteilt sich über viele gleichwertige Pfade (ECMP), und ein einzelner defekter Pfad betrifft oft nur einen Teil der Flows. Das macht Fehlerbilder häufig „intermittierend“ und sorgt dafür, dass Standardmetriken wie „Link utilization“ zu grob sind.
- ECMP als Normalzustand: Ein Problem auf einem Spine oder einem Uplink-Member kann nur bestimmte 5-Tuples treffen.
- Underlay/Overlay-Schichtung: VXLAN/EVPN kapselt L2/L3 über ein IP-Underlay – Störungen können in beiden Schichten entstehen.
- Hohe Paket- und Burst-Raten: Microbursts, Buffering und Queue-Drops sind in DC-Fabrics häufige Ursachen für Latenzspitzen.
- Automatisierung: Konfig ist oft konsistent – aber ein einzelner Abweichler (Drift) kann ganze Fehlerbilder erzeugen.
Erster Schritt im Incident: Fehlerklasse und Scope präzisieren
Bevor Sie in EVPN-Routen oder Interface-Countern versinken, brauchen Sie eine präzise Problemdefinition. In Spine-Leaf bringt „geht nicht“ wenig, weil „geht nicht“ meist nur für einen Teil der Flows gilt.
- Scope: nur ein Rack, ein Leaf, ein Pod, eine VRF/VNI, oder fabric-weit?
- Traffic-Richtung: North-South (zu Border/Edge) oder East-West (zwischen Leafs)?
- Protokoll: TCP/UDP/ICMP, VXLAN-UDP/4789, BGP/OSPF/IS-IS Control Plane?
- Symptomtyp: kompletter Ausfall, sporadischer Loss, Latenzspitzen, Throughput-Einbruch, nur „große Pakete“?
Dieses Framing entscheidet, ob Sie zuerst Underlay (Link/BGP/ECMP) oder Overlay (EVPN/VXLAN/Anycast GW) prüfen.
Underlay-Checkliste: Link, MTU, Routing, ECMP
Das Underlay ist in Spine-Leaf meist ein L3-Netz, das nur dafür da ist, Reachability zwischen Leafs und Spines zu liefern. Wenn das Underlay nicht stabil ist, wird alles darüber unzuverlässig.
Link- und Interface-Gesundheit: Die „harten“ Signale zuerst
- Link Flaps: Up/Down-Events auf Leaf-Spine-Uplinks sind fast immer high-signal (Optics, Kabel, Port, Bug).
- Errors: CRC/FCS, symbol errors, FEC-Indizien (plattformabhängig), input errors als Hinweis auf physische Qualität.
- Discards/Drops: output discards/queue drops als Hinweis auf Congestion oder Buffer-Probleme.
Für die Standarddefinitionen von Interface-Countern ist RFC 2863 (IF-MIB) eine solide Referenz, insbesondere für Errors und Discards.
MTU und „Jumbo“: Der stille Fabric-Killer
Viele Fabrics setzen Jumbo Frames, besonders bei VXLAN (zusätzlicher Overhead). Wenn ein Teilpfad eine kleinere MTU hat, entstehen Blackholes oder fragmentierungsähnliche Effekte. Typisch: kleine Pakete funktionieren, große brechen.
- Indiz: Probleme nur bei großen Transfers, bestimmten TLS-Handshakes oder Storage-Traffic.
- Beweis: Packet Captures zeigen Retransmissions; ICMP „Packet Too Big“ fehlt (IPv6) oder DF/PMTUD-Probleme (IPv4).
- Fix: MTU entlang Leaf-Spine und VTEP-Links konsistent setzen, ggf. MSS-Clamping an Edges.
Für IPv6 PMTUD ist RFC 8201 hilfreich, weil IPv6 besonders empfindlich auf PMTUD-Blackholes reagiert.
Routing im Underlay: Nachbarschaften und Convergence
Ob BGP oder IS-IS – der Troubleshooting-Fokus ist ähnlich: Sind Adjazenzen stabil? Gibt es Route Churn? Gibt es inkonsistente Next-Hops?
- Adjacency Health: BGP neighbor up/down, IS-IS adjacency changes, OSPF neighbor changes.
- Route Flapping: häufig ausgelöst durch Link-Instabilität oder Control-Plane-Overload.
- ECMP-Set Stabilität: ändern sich die Next-Hops häufig? Das kann Latenzspitzen und Hash-Resets erzeugen.
ECMP-Fehlerbilder: Wenn nur manche Flows kaputt sind
ECMP ist der Kern der Spine-Leaf-Resilienz – und zugleich die häufigste Quelle für „nur manchmal“-Tickets. Wenn ein Spine oder ein Uplink-Member degradiert ist (Loss, Queue-Drops, MTU), trifft es nur die Flows, die auf diesen Pfad gehasht werden.
- Indiz: derselbe Service ist aus einem Subnet schnell, aus einem anderen langsam; oder nur einzelne Clients haben Probleme.
- Beweis: wiederholte Tests mit variierenden 5-Tuples (Ports) zeigen, dass manche Versuche scheitern und andere nicht.
- Verifikation: per-flow Telemetrie (IPFIX/sFlow) oder Load-Balancing-Stats pro Member, plus Interface-Counter auf Spines/Uplinks.
Flow-Telemetrie über IPFIX ist in RFC 7011 beschrieben und ist als „Radar“ im Fabric extrem nützlich, um problematische Pfade und Hotspots zu finden.
Overlay-Checkliste: VXLAN/EVPN, VTEPs, VNIs und Anycast GW
Wenn Underlay-Reachability stabil ist (Leaf↔Spine↔Leaf), aber die Symptome „segmentbezogen“ sind (nur bestimmte VLANs/VRFs), liegt die Ursache häufig im Overlay.
VTEP Reachability und VXLAN-Encapsulation
- VTEP-to-VTEP Connectivity: Erreichbarkeit zwischen VTEP-IPs (meist Loopbacks) muss im Underlay zuverlässig sein.
- VXLAN UDP/4789: Filter/ACLs dürfen VXLAN nicht blocken; QoS/Policer sollte es nicht drosseln.
- Encapsulation Overhead: VXLAN erhöht die Paketgröße; MTU muss das abfangen.
EVPN Control Plane: Route Types und typische Inkonsistenzen
EVPN verteilt MAC- und IP-Informationen über BGP. Typische Fehler entstehen durch fehlende Route Types, falsche Route Targets (RT), falsches VNI Mapping oder inkonsistente Anycast-GW-Konfigurationen.
- Symptom: ARP/ND klappt nicht über Leafs, MAC learning wirkt „einseitig“, oder nur bestimmte Hosts sind erreichbar.
- Ursache: EVPN Routes werden nicht importiert (RT mismatch), oder VNI/VRF Zuordnung ist falsch.
- Beweis: EVPN Route Tables pro Leaf vergleichen (gleiche RTs? gleiche MAC/IP entries?) und den Import/Export prüfen.
Für ein herstellerneutrales Verständnis von BGP (als Basis für EVPN-Control-Plane) ist RFC 4271 hilfreich, auch wenn EVPN selbst in weiteren RFCs spezifiziert ist.
Anycast Gateway: Wenn „Default Gateway“ überall gleich ist, aber nicht überall gleich arbeitet
Anycast GW ist elegant: derselbe Gateway-IP/MAC auf allen Leafs. Fehlerbilder entstehen, wenn ARP/ND-Proxying, IRB/VRF-Integration oder Host-Mobility nicht konsistent implementiert ist.
- Indiz: Host in Rack A ist erreichbar, nach VM-Move nach Rack B sporadisch nicht.
- Indiz: Nur First-Hop-Connectivity (ARP/ND) ist instabil, danach läuft es.
- Beweis: ARP/ND-Events, EVPN MAC/IP Routes und Anycast-GW-Status auf betroffenen Leafs.
Host-Edge Fehlerbilder: Bonding, LACP, NIC-Offloads und VLAN-Tagging
Viele Fabric-Tickets sind nicht „Fabric“, sondern Host-Edge: der Serverbond ist falsch, LACP-Parameter mismatch, VLAN-Tagging inkonsistent, oder NIC-Offloads erzeugen Artefakte bei Captures und Checksums.
- LACP/Bonding: Member churning führt zu intermittierenden Drops; Hashing kann „hot member“ erzeugen.
- VLAN Tagging: Native VLAN mismatch, allowed VLANs fehlen; Symptome wirken segmentbezogen.
- MTU am Host: Host nutzt Jumbo, Leaf-Port nicht; oder umgekehrt. Besonders relevant bei Storage/Replication.
- Offloads: Checksum Offload kann Captures „falsch“ aussehen lassen; immer den Messpunkt bewusst wählen.
Microbursts, Buffering und Queue-Drops: Die DC-Performance-Falle
In Spine-Leaf sind kurze Bursts normal: viele Sender treffen gleichzeitig denselben Empfänger (Incast), oder East-West-Traffic synchronisiert. Dadurch entstehen Microbursts, die in 60s-Metriken unsichtbar sind, aber Echtzeit- oder Storage-Traffic stark treffen.
- Indiz: Latenzspitzen unter Last, sporadischer Loss ohne dauerhafte Congestion, „p99 ist schlecht“.
- Beweis: Queue occupancy und drops in hoher Frequenz, plus Flow-Telemetrie (viele gleichzeitige Flows zu einem Ziel).
- Mitigation: QoS/ECN, Shaping an Edges, Buffer-Tuning, Application-Level Congestion Control – abhängig vom DC-Design.
Control Plane Probleme im Fabric: CPU, CoPP, Storms
Auch im DC-Fabric kann die Control Plane überlasten: L2-Stürme (MAC flapping), Routing-Churn, Telemetrie-Overload oder punted Traffic (ARP/ND, TTL expired) treiben CPU und destabilisieren Protokolle.
- Indiz: BGP/IS-IS adjacency flaps, Management timeouts, Syslog storms, CPU peaks.
- Beweis: CPU pro Prozess, CoPP drops pro Klasse, punt-reason Counters, plus zeitliche Korrelation mit Link/LACP Events.
- Fix: Storm-Ursache beheben (Loops, Duplicate IP), CoPP kalibrieren, Telemetrie kuratieren.
Beweisführung im Rechenzentrum: „Follow the Packet“ richtig anwenden
Spine-Leaf ist prädestiniert für Fehlinterpretationen, weil der Pfad je Flow variieren kann. Ein einzelner PCAP an einem Punkt kann daher irreführend sein. Besser ist ein gezielter Mehrpunkt-Ansatz: capture am Sender-Leaf (ingress), am Spine/Uplink (wenn möglich) und am Empfänger-Leaf (egress). So beweisen Sie, wo Pakete verschwinden oder verändert werden.
- Mehrpunkt-Capture: zeigt, ob Loss im Underlay (zwischen Leafs) oder am Host-Edge entsteht.
- Ring Buffer: bei intermittierenden Problemen Captures rotierend laufen lassen, damit Sie den Moment „einfangen“.
- Enge Filter: nur betroffene 5-Tuples/VTEP-IPs mitschneiden, um Datenmenge zu begrenzen.
Praktische Referenzen: tcpdump Manpage und Wireshark Dokumentation.
Die schnellsten „Spine-Leaf RCA Shortcuts“ aus der Praxis
Wenn Sie in großen Fabrics schnell entscheiden müssen, helfen wiederkehrende Muster. Diese Shortcuts sind keine Abkürzung ohne Beweise, sondern eine Priorisierung, welche Hypothese zuerst geprüft wird.
- Nur ein Rack betroffen: zuerst Host-Edge (LACP/VLAN/MTU), dann Leaf, erst dann Spine.
- Nur einige Flows betroffen: ECMP/Hashing und ein degradiertes Member/Spine ist Top-Kandidat.
- Nur ein Segment/VNI betroffen: Overlay (EVPN RT/VNI Mapping/Anycast GW) vor Underlay.
- „Groß geht nicht“: MTU/PMTUD/VXLAN Overhead vor Policy-Filtern.
- p99 schlecht, p50 gut: Microbursts/Queueing/Buffering vor „Routing kaputt“.
Runbook-Baustein: Spine-Leaf Fehlerbilder in 15 Minuten eingrenzen
- Minute 0–3: Scope und Fehlerklasse festlegen: Rack/Leaf/Pod/Segment? East-West oder North-South? „nur manche Flows“ oder „alles“?
- Minute 3–6: Underlay Quick Check: Link/Errors/Flaps auf Leaf-Spine-Uplinks, Routing adjacency health, MTU-Konsistenz, ECMP-Set stabil?
- Minute 6–9: ECMP/Flow-Hypothese testen: Variierende 5-Tuples prüfen; Flow Telemetry nutzen, um Pfad/Member-Hotspots zu finden.
- Minute 9–12: Overlay Quick Check: VTEP reachability, EVPN route import/export (RTs), VNI/VRF Mapping, Anycast GW Konsistenz.
- Minute 12–15: Beweis sichern: relevante Logs, Counter-Trends, ggf. Mehrpunkt-PCAP (Ring Buffer) starten. Mitigation: degradiertes Member isolieren, MTU korrigieren, Policy/RT fixen – und sofort verifizieren.
Weiterführende Quellen
- RFC 4271 für BGP-Grundlagen (wichtig für Underlay-BGP und EVPN-Control-Plane-Verständnis)
- RFC 2863 für Interface-Counter (Errors/Discards) als Basissignale im Fabric
- RFC 7011 für IPFIX/Flow-Telemetrie zur schnellen Lokalisierung von ECMP- und Hotspot-Problemen
- RFC 8201 für IPv6 PMTUD (relevant für Jumbo/Encapsulation und MTU-Blackholes)
- Wireshark Dokumentation und tcpdump Manpage für Packet-Capture-Strategien, Filter und Beweisführung im DC-Incident
Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte
Cisco Networking • CCNA • Packet Tracer • Network Configuration
Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.
Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.
Leistungsumfang:
-
Netzwerkdesign & Topologie-Planung
-
Router- & Switch-Konfiguration (Cisco IOS)
-
VLAN, Inter-VLAN Routing
-
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
-
NAT, ACL, DHCP, DNS-Konfiguration
-
Troubleshooting & Netzwerkoptimierung
-
Packet Tracer Projektentwicklung & Dokumentation
-
CCNA Lern- & Praxisunterstützung
Lieferumfang:
-
Konfigurationsdateien
-
Packet-Tracer-Dateien (.pkt)
-
Netzwerkdokumentation
-
Schritt-für-Schritt-Erklärungen (auf Wunsch)
Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert
CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.

