ECMP Troubleshooting (Equal-Cost Multi-Path) gehört zu den anspruchsvollsten Aufgaben im Routing-Betrieb, weil die Symptome selten „global“ sind, sondern selektiv: Manche Flows sind schnell, andere langsam; ein Teil der Nutzer hat Timeouts, der Rest merkt nichts; oder ein Service funktioniert nur in eine Richtung. Genau das ist typisch für ECMP, denn ECMP verteilt Traffic nicht paketweise, sondern flow-basiert über mehrere gleichwertige Next-Hops. Damit wird Bandbreite skaliert und Redundanz verbessert – gleichzeitig entstehen neue Fehlerklassen: Asymmetrie zwischen Hin- und Rückweg, ungleichmäßiges Hashing, Flow Pinning auf „schlechten“ Members, instabile Next-Hop-Sets durch Routing-Churn und Interaktionen mit Statefulness (Firewalls, NAT, Load Balancer). Professionelles ECMP Troubleshooting bedeutet deshalb, in Mustern zu denken und mit Evidence zu arbeiten: Welche Hash-Keying-Strategie wird genutzt? Welche Next-Hops sind aktiv? Ist ein einzelner Pfad fehlerhaft (Errors/Drops/MTU), sodass nur die Flows leiden, die dort „kleben“? Oder ist der Rückweg anders und bricht State ab? In diesem Artikel lernen Sie ein systematisches Vorgehen, um ECMP-Probleme schnell einzugrenzen, Asymmetrien zu beweisen und Hashing/Flow Pinning so zu analysieren, dass Sie nicht im Blindflug an Routing-Policies drehen.
ECMP in der Praxis: Warum „gleich teuer“ nicht „gleich gut“ bedeutet
ECMP erlaubt es Routern, mehrere Next-Hops mit gleichem Routing-Kostenwert (z. B. gleiche IGP-Metrik oder identischer BGP-Bestpath mit Multipath) gleichzeitig zu nutzen. Entscheidend ist dabei die Forwarding-Entscheidung im Datenpfad (FIB): Für jedes Paket wird anhand eines Hashes entschieden, welcher Next-Hop verwendet wird. In den meisten Netzen ist das ein per-flow-Hash, damit Paketreihenfolge innerhalb eines Flows erhalten bleibt. Damit ist aber auch klar: Ein einzelner großer Flow kann nie die Summe aller ECMP-Pfade nutzen, sondern bleibt auf einem Pfad – und genau dieser Pfad kann der „schlechte“ sein.
- Skalierung: Viele Flows verteilen sich über mehrere Links → bessere Gesamtauslastung.
- Stabilität: Flow-basiertes Hashing reduziert Reordering, schützt TCP vor unnötigen Retransmissions.
- Risiko: Ein fehlerhafter Next-Hop trifft nur einen Teil der Flows → „selektive“ Störungen, schwer zu sehen mit groben Metriken.
Die drei Hauptfehlerbilder: Asymmetrie, Hashing-Ungleichgewicht, Flow Pinning
Fast jedes ECMP-Problem lässt sich in eine dieser drei Kategorien einordnen. Wenn Sie die Kategorie früh bestimmen, sparen Sie sehr viel Zeit.
- Asymmetrie: Hin- und Rückweg laufen über unterschiedliche Pfade/Edges, und stateful Komponenten (Firewall/NAT/IDS) kommen nicht mit.
- Hashing-Ungleichgewicht: Der Hash verteilt Flows nicht gleichmäßig; ein Pfad ist heiß, andere kalt.
- Flow Pinning: Ein Flow „klebt“ an einem Pfad (gewollt), aber dieser Pfad ist fehlerhaft oder degradiert.
Asymmetrie: Wenn der Rückweg Ihr Incident ist
Asymmetrisches Routing ist in ECMP-Designs häufig normal. Problematisch wird es, wenn irgendwo State erwartet wird: Firewalls, NAT-Gateways, Proxy-Layer, DDoS-Appliances oder bestimmte Load-Balancer-Modi. Dann kann ein Paket auf dem Hinweg über Firewall A gehen, die Antwort aber über Firewall B zurückkommen – und B hat keinen State. Ergebnis: Drops, Retransmissions, „random“ Timeouts. Typisch ist, dass ICMP manchmal geht, TCP aber nicht zuverlässig.
High-Signal Indizien für asymmetrische ECMP-Probleme
- Nur stateful Protokolle betroffen: TCP/HTTPS bricht, stateless ICMP wirkt „ok“.
- Nur bestimmte Ziele/Ports: z. B. nur NATed Services oder nur ein VIP.
- Firewall-Logs: „out of state“, „no session“, „SYN seen but no ACK“, „asymmetric flow“.
- Traceroute/MTR differiert: Hinweg und Rückweg zeigen unterschiedliche Exits oder unterschiedliche Zwischenhops.
Sauber beweisen: Asymmetrie ohne Rate-Spiel
- 5-Tuple Korrelation: Quell-/Ziel-IP, Ports, Protokoll über mehrere Messpunkte korrelieren (Client-seitig, Edge-seitig, Firewall-seitig).
- Session-Table Abgleich: Hat die zuständige Firewall/NAT-Instanz den State? Wenn nicht, ist Asymmetrie sehr wahrscheinlich.
- Policy-Check: Gibt es ECMP auf beiden Richtungen? Gibt es PBR/Policy-Route, die nur in eine Richtung wirkt?
Hashing: Welche Felder entscheiden, wohin Ihr Flow geht
Hashing ist das Herz von ECMP. Die meisten Plattformen nutzen eine Hash-Funktion über ausgewählte Header-Felder. Je nachdem, ob Sie Layer-2-, Layer-3- oder Layer-4-Hashing nutzen, entsteht mehr oder weniger „Entropie“. Wenig Entropie führt zu Ungleichverteilung. Zu viel oder falsch gewählte Entropie kann im Zusammenspiel mit NAT oder Tunneln ebenfalls problematisch sein.
- L2-Hash: Source/Destination MAC (häufig in Switching-/Clos-Umgebungen relevant).
- L3-Hash: Source/Destination IP (typisch für Routing-ECMP).
- L4-Hash: Source/Destination Port + Protokoll (5-Tuple), liefert meist die beste Verteilung für viele Anwendungen.
Warum Hashing trotz 5-Tuple ungleich sein kann
- „Elephant Flows“: wenige große Flows dominieren Traffic und landen zufällig auf einem Pfad.
- NAT reduziert Entropie: Viele Clients teilen sich eine Source-IP, Ports werden in engen Bereichen genutzt.
- Tunnel/Overlay kapselt: Unterlay sieht nur Outer Header, Inner Entropie geht verloren (oder wird nicht genutzt).
- Port-Channels in der Kette: LAG-Hashing plus ECMP-Hashing kann sich ungünstig überlagern.
Flow Pinning: Stabilität mit Nebenwirkung
Flow Pinning bedeutet, dass ein Flow für seine Lebensdauer auf einem Pfad bleibt. Das ist in der Regel gewollt, um Paket-Reordering zu vermeiden. Im Incident ist es aber ein klassischer Effekt: Wenn Pfad X degradiert ist, leiden genau die Flows, die dort gepinnt sind. Der Rest ist gesund. Das wirkt wie „ein Teil der Nutzer hat Pech“ – und genau das ist oft die richtige Beschreibung.
Typische Root Causes für „schlechte“ ECMP-Members
- Physische Errors auf einem Link: CRC/Symbol Errors, Optics-Probleme, schlechte Kabel, marginale Transceiver.
- MTU/Fragmentation auf einem Pfad: nur ein Segment hat zu kleine MTU → große Pakete droppen, kleine gehen.
- Queueing/Microbursts: ein Member läuft in Congestion, andere nicht (ungleiche Last oder QoS-Policy).
- ACL/Policy inkonsistent: ein Pfad blockt bestimmten Traffic (z. B. TCP/179, DNS, ICMP) durch eine abweichende Regel.
- ECMP-Set inkonsistent: ein Next-Hop zeigt auf ein anderes Gerät/VRF, das nicht gleich konfiguriert ist.
Evidence Pack: Was Sie für ECMP Troubleshooting immer sichern sollten
Ohne Evidence bleibt ECMP Troubleshooting schnell ein Ratespiel. Ein gutes Evidence Pack ist klein, aber hochsignalig.
- Aktive Next-Hops: Welche Next-Hops sind im FIB wirklich installiert (nicht nur im RIB)?
- Member-Gesundheit: Errors, Drops, Queue Drops, Optics-Werte pro Link/Member.
- Traffic-Verteilung: Utilization pro ECMP-Pfad (oder pro Interface) über ein Zeitfenster, nicht als Snapshot.
- Flap-/Churn-Events: Routing-Änderungen, IGP/BGP Updates, Link Flaps, die das ECMP-Set verändern.
- Flow-Beispiele: 3–5 konkrete betroffene Flows (5-Tuple, Zeitpunkt, Symptom), um Hash/Path zu reproduzieren.
Systematisches Vorgehen: ECMP Troubleshooting Schritt für Schritt
Das folgende Vorgehen ist darauf ausgelegt, in kurzer Zeit die Fehlerdomäne zu trennen und eine belastbare Root Cause zu finden.
Schritt 1: Symptomklassifikation
- Sind alle Nutzer betroffen oder nur ein Teil?
- Ist es stateful (TCP) oder auch stateless (ICMP/UDP)?
- Tritt es sporadisch oder reproduzierbar bei bestimmten Flows auf?
Schritt 2: Asymmetrie prüfen
- Gibt es stateful Geräte im Pfad (Firewall/NAT)?
- Sehen Sie „out of state“ in Logs?
- Zeigen Hin- und Rückweg unterschiedliche Exits?
Schritt 3: ECMP-Set und Next-Hop Reachability verifizieren
- Welche Next-Hops sind installiert (FIB), und sind sie erreichbar (IGP/Connected)?
- Gibt es Next-Hops, die zwar existieren, aber degradiert sind (Errors/Drops)?
- Ist das ECMP-Set stabil oder ändert es sich (Churn)?
Schritt 4: Hashing/Flow Mapping prüfen
- Welche Hash-Policy ist aktiv (L3/L4, Symmetric Hashing)?
- Wandern Flows unerwartet zwischen Pfaden (Rehash) oder bleiben sie gepinnt?
- Gibt es Hotspots (ein Pfad überproportional ausgelastet)?
Schritt 5: Ein „schlechter Pfad“ Test – kontrolliert und reversibel
- Wenn Evidence stark ist: den verdächtigen Member kontrolliert drainen/isolieren (Change-Disziplin, Rollback bereit).
- Verifikation: Betroffene Flows stabilisieren sich, Drops/Errors verschwinden, Service-Latenz normalisiert.
Asymmetrie-Fixes: Stabilität ohne Overengineering
Wenn Asymmetrie die Ursache ist, müssen Sie nicht zwangsläufig ECMP abschalten. Häufig reichen gezielte Maßnahmen, um Statefulness zu respektieren.
- Stateful Clustering: Firewalls/NAT in HA-Cluster mit State-Sync, sodass Rückweg über den anderen Node nicht bricht.
- Symmetric Routing erzwingen: PBR/Policy so gestalten, dass Hin- und Rückweg über dieselbe Instanz laufen (bewusst, mit Dokumentation).
- ECMP Scope reduzieren: ECMP nur im Underlay nutzen, aber nicht über stateful Service-Kanten.
- SNAT/Service-Design: Dienste so platzieren, dass Session-State nicht über mehrere Edges verteilt wird.
Hashing-Fixes: Entropie erhöhen, ohne Nebenwirkungen
Wenn Hashing-Ungleichgewicht die Ursache ist, ist das Ziel: bessere Verteilung durch mehr Entropie oder durch Designanpassungen, nicht durch „mehr Bandbreite kaufen“.
- L4-Hashing aktivieren: Wenn möglich, 5-Tuple nutzen statt nur IP/MAC.
- Entropy Labels nutzen (wenn Design es vorsieht): In Overlay-Umgebungen kann zusätzliche Entropie gezielt eingebracht werden.
- Elephant Flow Management: Applikationsseitig mehrere parallele Streams (wo sinnvoll) oder Traffic Shaping.
- Member-Kapazität prüfen: Ungleichgewicht kann auch ein Symptom sein, wenn ein Member still degradiert und weniger Traffic „aushält“.
Flow Pinning und Rehashing: Wann „Rebalance“ schadet
Manche Plattformen können Flows beim Ausfall eines Members neu hashen (rehash). Das kann helfen, kann aber kurzfristig Reordering und Micro-Outages erzeugen. Deshalb ist die Frage nicht „rehash an oder aus“, sondern: Passt die Rehash-Strategie zu Ihren Workloads (VoIP, Trading, Storage) und zu Ihrer Incident-Toleranz?
- Statisches Pinning: stabil, aber schlechte Pfade treffen bestimmte Nutzer dauerhaft.
- Adaptive Rebalance: verteilt besser, kann aber kurzfristig Jitter/Packet Reordering erhöhen.
- Best Practice: Rebalance bewusst testen (Last, Jitter, Retransmissions), bevor es als „Fix“ ausgerollt wird.
ECMP und TCP: Warum Retransmissions oft der erste sichtbare Effekt sind
TCP reagiert empfindlich auf Loss, Reordering und Delay. In ECMP-Problemen sehen Sie deshalb häufig Retransmissions, Duplicate ACKs und Throughput-Einbrüche – während Ping noch „okay“ wirkt. Das ist kein Widerspruch, sondern typisch: ICMP ist klein und tolerant, TCP ist zustandsbehaftet und reagiert auf Timing. Für Transport-Grundlagen ist RFC 9293 eine seriöse Referenz.
PCAP gezielt einsetzen: Wie Sie Hashing und Pfade sichtbar machen
Captures sind bei ECMP besonders effektiv, wenn Sie sie nicht „breit“, sondern flow-spezifisch nutzen. Ziel ist, 5-Tuple, Timing und eventuelle Reordering-/Retransmission-Muster zu sehen. Für praktische Analyse-Workflows eignen sich die Wireshark-Dokumentation und die tcpdump-Manpage.
- Asymmetrie: SYN geht raus, SYN-ACK kommt über anderen Pfad, Firewall droppt.
- Schlechter Pfad: Retransmissions steigen nur bei bestimmten Flows, korrelieren mit einem Member.
- MTU-Falle: große Segmente droppen, TCP fällt zurück, Handshakes wirken „zäh“.
Runbook-Baustein: ECMP Troubleshooting in 15 Minuten
- Minute 0–3: Symptom klassifizieren: selektiv oder global, stateful oder stateless, reproduzierbar oder sporadisch. 3–5 Beispiel-Flows sichern.
- Minute 3–6: Asymmetrie prüfen: stateful Geräte im Pfad? „Out of state“ Logs? Hin-/Rückweg unterscheiden?
- Minute 6–9: ECMP-Set prüfen: aktive Next-Hops (FIB), Reachability, Churn/Flaps. Member-Counter (Errors/Drops/Queue) vergleichen.
- Minute 9–12: Hashing prüfen: Hash-Policy (L3/L4, symmetric), Member-Utilization, Hotspot-Indizien, Flow Pinning sichtbar machen.
- Minute 12–15: Low-Risk Mitigation: verdächtigen Member drainen oder stateful Symmetrie herstellen; danach Verifikation über betroffene Flows, Retransmissions und Latenz.
Hygiene Checks: Sichere Baselines für ECMP-Betrieb
- Member-Telemetrie: Errors, Drops, Queue Occupancy pro Link – nicht nur Gesamt-Interface.
- ECMP-Set Monitoring: Anzahl aktiver Next-Hops, Changes pro Stunde, Churn-Events.
- Hash-Verteilung: per Member Utilization und Top-N Flows (Elephants) beobachten.
- Stateful Awareness: Dokumentieren, wo asymmetrisches Routing erlaubt ist und wo nicht (Firewalls/NAT).
- Change-Markierung: Routing-Policy- oder Link-Änderungen als Events, um Latency Patterns zu korrelieren.
Weiterführende Quellen für Standards und Praxis
- RFC 9293 für TCP-Verhalten (Retransmissions, Reordering-Sensitivität)
- RFC 1191 für Path MTU Discovery unter IPv4 (wichtig bei MTU-Fallen auf einzelnen ECMP-Pfaden)
- RFC 8201 für Path MTU Discovery unter IPv6
- Wireshark Dokumentation für Flow-Analyse, Retransmissions und Timing-Muster
- tcpdump Manpage für effiziente Captures und Filterpraxis
Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte
Cisco Networking • CCNA • Packet Tracer • Network Configuration
Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.
Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.
Leistungsumfang:
-
Netzwerkdesign & Topologie-Planung
-
Router- & Switch-Konfiguration (Cisco IOS)
-
VLAN, Inter-VLAN Routing
-
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
-
NAT, ACL, DHCP, DNS-Konfiguration
-
Troubleshooting & Netzwerkoptimierung
-
Packet Tracer Projektentwicklung & Dokumentation
-
CCNA Lern- & Praxisunterstützung
Lieferumfang:
-
Konfigurationsdateien
-
Packet-Tracer-Dateien (.pkt)
-
Netzwerkdokumentation
-
Schritt-für-Schritt-Erklärungen (auf Wunsch)
Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert
CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.












