ECMP Troubleshooting: Asymmetrie, Hashing und Flow Pinning

Red Snapper

1 month ago

ECMP Troubleshooting (Equal-Cost Multi-Path) gehört zu den anspruchsvollsten Aufgaben im Routing-Betrieb, weil die Symptome selten „global“ sind, sondern selektiv: Manche Flows sind schnell, andere langsam; ein Teil der Nutzer hat Timeouts, der Rest merkt nichts; oder ein Service funktioniert nur in eine Richtung. Genau das ist typisch für ECMP, denn ECMP verteilt Traffic nicht paketweise, sondern flow-basiert über mehrere gleichwertige Next-Hops. Damit wird Bandbreite skaliert und Redundanz verbessert – gleichzeitig entstehen neue Fehlerklassen: Asymmetrie zwischen Hin- und Rückweg, ungleichmäßiges Hashing, Flow Pinning auf „schlechten“ Members, instabile Next-Hop-Sets durch Routing-Churn und Interaktionen mit Statefulness (Firewalls, NAT, Load Balancer). Professionelles ECMP Troubleshooting bedeutet deshalb, in Mustern zu denken und mit Evidence zu arbeiten: Welche Hash-Keying-Strategie wird genutzt? Welche Next-Hops sind aktiv? Ist ein einzelner Pfad fehlerhaft (Errors/Drops/MTU), sodass nur die Flows leiden, die dort „kleben“? Oder ist der Rückweg anders und bricht State ab? In diesem Artikel lernen Sie ein systematisches Vorgehen, um ECMP-Probleme schnell einzugrenzen, Asymmetrien zu beweisen und Hashing/Flow Pinning so zu analysieren, dass Sie nicht im Blindflug an Routing-Policies drehen.

ECMP in der Praxis: Warum „gleich teuer“ nicht „gleich gut“ bedeutet

ECMP erlaubt es Routern, mehrere Next-Hops mit gleichem Routing-Kostenwert (z. B. gleiche IGP-Metrik oder identischer BGP-Bestpath mit Multipath) gleichzeitig zu nutzen. Entscheidend ist dabei die Forwarding-Entscheidung im Datenpfad (FIB): Für jedes Paket wird anhand eines Hashes entschieden, welcher Next-Hop verwendet wird. In den meisten Netzen ist das ein per-flow-Hash, damit Paketreihenfolge innerhalb eines Flows erhalten bleibt. Damit ist aber auch klar: Ein einzelner großer Flow kann nie die Summe aller ECMP-Pfade nutzen, sondern bleibt auf einem Pfad – und genau dieser Pfad kann der „schlechte“ sein.

Skalierung: Viele Flows verteilen sich über mehrere Links → bessere Gesamtauslastung.
Stabilität: Flow-basiertes Hashing reduziert Reordering, schützt TCP vor unnötigen Retransmissions.
Risiko: Ein fehlerhafter Next-Hop trifft nur einen Teil der Flows → „selektive“ Störungen, schwer zu sehen mit groben Metriken.

Die drei Hauptfehlerbilder: Asymmetrie, Hashing-Ungleichgewicht, Flow Pinning

Fast jedes ECMP-Problem lässt sich in eine dieser drei Kategorien einordnen. Wenn Sie die Kategorie früh bestimmen, sparen Sie sehr viel Zeit.

Asymmetrie: Hin- und Rückweg laufen über unterschiedliche Pfade/Edges, und stateful Komponenten (Firewall/NAT/IDS) kommen nicht mit.
Hashing-Ungleichgewicht: Der Hash verteilt Flows nicht gleichmäßig; ein Pfad ist heiß, andere kalt.
Flow Pinning: Ein Flow „klebt“ an einem Pfad (gewollt), aber dieser Pfad ist fehlerhaft oder degradiert.

Asymmetrie: Wenn der Rückweg Ihr Incident ist

Asymmetrisches Routing ist in ECMP-Designs häufig normal. Problematisch wird es, wenn irgendwo State erwartet wird: Firewalls, NAT-Gateways, Proxy-Layer, DDoS-Appliances oder bestimmte Load-Balancer-Modi. Dann kann ein Paket auf dem Hinweg über Firewall A gehen, die Antwort aber über Firewall B zurückkommen – und B hat keinen State. Ergebnis: Drops, Retransmissions, „random“ Timeouts. Typisch ist, dass ICMP manchmal geht, TCP aber nicht zuverlässig.

High-Signal Indizien für asymmetrische ECMP-Probleme

Nur stateful Protokolle betroffen: TCP/HTTPS bricht, stateless ICMP wirkt „ok“.
Nur bestimmte Ziele/Ports: z. B. nur NATed Services oder nur ein VIP.
Firewall-Logs: „out of state“, „no session“, „SYN seen but no ACK“, „asymmetric flow“.
Traceroute/MTR differiert: Hinweg und Rückweg zeigen unterschiedliche Exits oder unterschiedliche Zwischenhops.

Sauber beweisen: Asymmetrie ohne Rate-Spiel

5-Tuple Korrelation: Quell-/Ziel-IP, Ports, Protokoll über mehrere Messpunkte korrelieren (Client-seitig, Edge-seitig, Firewall-seitig).
Session-Table Abgleich: Hat die zuständige Firewall/NAT-Instanz den State? Wenn nicht, ist Asymmetrie sehr wahrscheinlich.
Policy-Check: Gibt es ECMP auf beiden Richtungen? Gibt es PBR/Policy-Route, die nur in eine Richtung wirkt?

Hashing: Welche Felder entscheiden, wohin Ihr Flow geht

Hashing ist das Herz von ECMP. Die meisten Plattformen nutzen eine Hash-Funktion über ausgewählte Header-Felder. Je nachdem, ob Sie Layer-2-, Layer-3- oder Layer-4-Hashing nutzen, entsteht mehr oder weniger „Entropie“. Wenig Entropie führt zu Ungleichverteilung. Zu viel oder falsch gewählte Entropie kann im Zusammenspiel mit NAT oder Tunneln ebenfalls problematisch sein.

L2-Hash: Source/Destination MAC (häufig in Switching-/Clos-Umgebungen relevant).
L3-Hash: Source/Destination IP (typisch für Routing-ECMP).
L4-Hash: Source/Destination Port + Protokoll (5-Tuple), liefert meist die beste Verteilung für viele Anwendungen.

Warum Hashing trotz 5-Tuple ungleich sein kann

„Elephant Flows“: wenige große Flows dominieren Traffic und landen zufällig auf einem Pfad.
NAT reduziert Entropie: Viele Clients teilen sich eine Source-IP, Ports werden in engen Bereichen genutzt.
Tunnel/Overlay kapselt: Unterlay sieht nur Outer Header, Inner Entropie geht verloren (oder wird nicht genutzt).
Port-Channels in der Kette: LAG-Hashing plus ECMP-Hashing kann sich ungünstig überlagern.

Flow Pinning: Stabilität mit Nebenwirkung

Flow Pinning bedeutet, dass ein Flow für seine Lebensdauer auf einem Pfad bleibt. Das ist in der Regel gewollt, um Paket-Reordering zu vermeiden. Im Incident ist es aber ein klassischer Effekt: Wenn Pfad X degradiert ist, leiden genau die Flows, die dort gepinnt sind. Der Rest ist gesund. Das wirkt wie „ein Teil der Nutzer hat Pech“ – und genau das ist oft die richtige Beschreibung.

Typische Root Causes für „schlechte“ ECMP-Members

Physische Errors auf einem Link: CRC/Symbol Errors, Optics-Probleme, schlechte Kabel, marginale Transceiver.
MTU/Fragmentation auf einem Pfad: nur ein Segment hat zu kleine MTU → große Pakete droppen, kleine gehen.
Queueing/Microbursts: ein Member läuft in Congestion, andere nicht (ungleiche Last oder QoS-Policy).
ACL/Policy inkonsistent: ein Pfad blockt bestimmten Traffic (z. B. TCP/179, DNS, ICMP) durch eine abweichende Regel.
ECMP-Set inkonsistent: ein Next-Hop zeigt auf ein anderes Gerät/VRF, das nicht gleich konfiguriert ist.

Evidence Pack: Was Sie für ECMP Troubleshooting immer sichern sollten

Ohne Evidence bleibt ECMP Troubleshooting schnell ein Ratespiel. Ein gutes Evidence Pack ist klein, aber hochsignalig.

Aktive Next-Hops: Welche Next-Hops sind im FIB wirklich installiert (nicht nur im RIB)?
Member-Gesundheit: Errors, Drops, Queue Drops, Optics-Werte pro Link/Member.
Traffic-Verteilung: Utilization pro ECMP-Pfad (oder pro Interface) über ein Zeitfenster, nicht als Snapshot.
Flap-/Churn-Events: Routing-Änderungen, IGP/BGP Updates, Link Flaps, die das ECMP-Set verändern.
Flow-Beispiele: 3–5 konkrete betroffene Flows (5-Tuple, Zeitpunkt, Symptom), um Hash/Path zu reproduzieren.

Systematisches Vorgehen: ECMP Troubleshooting Schritt für Schritt

Das folgende Vorgehen ist darauf ausgelegt, in kurzer Zeit die Fehlerdomäne zu trennen und eine belastbare Root Cause zu finden.

Schritt 1: Symptomklassifikation

Sind alle Nutzer betroffen oder nur ein Teil?
Ist es stateful (TCP) oder auch stateless (ICMP/UDP)?
Tritt es sporadisch oder reproduzierbar bei bestimmten Flows auf?

Schritt 2: Asymmetrie prüfen

Gibt es stateful Geräte im Pfad (Firewall/NAT)?
Sehen Sie „out of state“ in Logs?
Zeigen Hin- und Rückweg unterschiedliche Exits?

Schritt 3: ECMP-Set und Next-Hop Reachability verifizieren

Welche Next-Hops sind installiert (FIB), und sind sie erreichbar (IGP/Connected)?
Gibt es Next-Hops, die zwar existieren, aber degradiert sind (Errors/Drops)?
Ist das ECMP-Set stabil oder ändert es sich (Churn)?

Schritt 4: Hashing/Flow Mapping prüfen

Welche Hash-Policy ist aktiv (L3/L4, Symmetric Hashing)?
Wandern Flows unerwartet zwischen Pfaden (Rehash) oder bleiben sie gepinnt?
Gibt es Hotspots (ein Pfad überproportional ausgelastet)?

Schritt 5: Ein „schlechter Pfad“ Test – kontrolliert und reversibel

Wenn Evidence stark ist: den verdächtigen Member kontrolliert drainen/isolieren (Change-Disziplin, Rollback bereit).
Verifikation: Betroffene Flows stabilisieren sich, Drops/Errors verschwinden, Service-Latenz normalisiert.

Asymmetrie-Fixes: Stabilität ohne Overengineering

Wenn Asymmetrie die Ursache ist, müssen Sie nicht zwangsläufig ECMP abschalten. Häufig reichen gezielte Maßnahmen, um Statefulness zu respektieren.

Stateful Clustering: Firewalls/NAT in HA-Cluster mit State-Sync, sodass Rückweg über den anderen Node nicht bricht.
Symmetric Routing erzwingen: PBR/Policy so gestalten, dass Hin- und Rückweg über dieselbe Instanz laufen (bewusst, mit Dokumentation).
ECMP Scope reduzieren: ECMP nur im Underlay nutzen, aber nicht über stateful Service-Kanten.
SNAT/Service-Design: Dienste so platzieren, dass Session-State nicht über mehrere Edges verteilt wird.

Hashing-Fixes: Entropie erhöhen, ohne Nebenwirkungen

Wenn Hashing-Ungleichgewicht die Ursache ist, ist das Ziel: bessere Verteilung durch mehr Entropie oder durch Designanpassungen, nicht durch „mehr Bandbreite kaufen“.

L4-Hashing aktivieren: Wenn möglich, 5-Tuple nutzen statt nur IP/MAC.
Entropy Labels nutzen (wenn Design es vorsieht): In Overlay-Umgebungen kann zusätzliche Entropie gezielt eingebracht werden.
Elephant Flow Management: Applikationsseitig mehrere parallele Streams (wo sinnvoll) oder Traffic Shaping.
Member-Kapazität prüfen: Ungleichgewicht kann auch ein Symptom sein, wenn ein Member still degradiert und weniger Traffic „aushält“.

Flow Pinning und Rehashing: Wann „Rebalance“ schadet

Manche Plattformen können Flows beim Ausfall eines Members neu hashen (rehash). Das kann helfen, kann aber kurzfristig Reordering und Micro-Outages erzeugen. Deshalb ist die Frage nicht „rehash an oder aus“, sondern: Passt die Rehash-Strategie zu Ihren Workloads (VoIP, Trading, Storage) und zu Ihrer Incident-Toleranz?

Statisches Pinning: stabil, aber schlechte Pfade treffen bestimmte Nutzer dauerhaft.
Adaptive Rebalance: verteilt besser, kann aber kurzfristig Jitter/Packet Reordering erhöhen.
Best Practice: Rebalance bewusst testen (Last, Jitter, Retransmissions), bevor es als „Fix“ ausgerollt wird.

ECMP und TCP: Warum Retransmissions oft der erste sichtbare Effekt sind

TCP reagiert empfindlich auf Loss, Reordering und Delay. In ECMP-Problemen sehen Sie deshalb häufig Retransmissions, Duplicate ACKs und Throughput-Einbrüche – während Ping noch „okay“ wirkt. Das ist kein Widerspruch, sondern typisch: ICMP ist klein und tolerant, TCP ist zustandsbehaftet und reagiert auf Timing. Für Transport-Grundlagen ist RFC 9293 eine seriöse Referenz.

PCAP gezielt einsetzen: Wie Sie Hashing und Pfade sichtbar machen

Captures sind bei ECMP besonders effektiv, wenn Sie sie nicht „breit“, sondern flow-spezifisch nutzen. Ziel ist, 5-Tuple, Timing und eventuelle Reordering-/Retransmission-Muster zu sehen. Für praktische Analyse-Workflows eignen sich die Wireshark-Dokumentation und die tcpdump-Manpage.

Asymmetrie: SYN geht raus, SYN-ACK kommt über anderen Pfad, Firewall droppt.
Schlechter Pfad: Retransmissions steigen nur bei bestimmten Flows, korrelieren mit einem Member.
MTU-Falle: große Segmente droppen, TCP fällt zurück, Handshakes wirken „zäh“.

Runbook-Baustein: ECMP Troubleshooting in 15 Minuten

Minute 0–3: Symptom klassifizieren: selektiv oder global, stateful oder stateless, reproduzierbar oder sporadisch. 3–5 Beispiel-Flows sichern.
Minute 3–6: Asymmetrie prüfen: stateful Geräte im Pfad? „Out of state“ Logs? Hin-/Rückweg unterscheiden?
Minute 6–9: ECMP-Set prüfen: aktive Next-Hops (FIB), Reachability, Churn/Flaps. Member-Counter (Errors/Drops/Queue) vergleichen.
Minute 9–12: Hashing prüfen: Hash-Policy (L3/L4, symmetric), Member-Utilization, Hotspot-Indizien, Flow Pinning sichtbar machen.
Minute 12–15: Low-Risk Mitigation: verdächtigen Member drainen oder stateful Symmetrie herstellen; danach Verifikation über betroffene Flows, Retransmissions und Latenz.

Hygiene Checks: Sichere Baselines für ECMP-Betrieb

Member-Telemetrie: Errors, Drops, Queue Occupancy pro Link – nicht nur Gesamt-Interface.
ECMP-Set Monitoring: Anzahl aktiver Next-Hops, Changes pro Stunde, Churn-Events.
Hash-Verteilung: per Member Utilization und Top-N Flows (Elephants) beobachten.
Stateful Awareness: Dokumentieren, wo asymmetrisches Routing erlaubt ist und wo nicht (Firewalls/NAT).
Change-Markierung: Routing-Policy- oder Link-Änderungen als Events, um Latency Patterns zu korrelieren.

Weiterführende Quellen für Standards und Praxis

RFC 9293 für TCP-Verhalten (Retransmissions, Reordering-Sensitivität)
RFC 1191 für Path MTU Discovery unter IPv4 (wichtig bei MTU-Fallen auf einzelnen ECMP-Pfaden)
RFC 8201 für Path MTU Discovery unter IPv6
Wireshark Dokumentation für Flow-Analyse, Retransmissions und Timing-Muster
tcpdump Manpage für effiziente Captures und Filterpraxis

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.