Ein typisches ECMP-Issue: Warum nur ein Teil des Traffics kaputt ist gehört zu den irritierendsten Fehlerbildern im Netzwerkbetrieb. Aus Sicht von Anwendern wirkt die Störung „zufällig“: Manche Verbindungen funktionieren stabil, andere brechen reproduzierbar ab, Downloads laufen mal schnell und mal gar nicht, API-Calls liefern eine gemischte Quote aus Erfolgen und Timeouts. Genau dieses Muster führt im Alltag oft zu Fehldiagnosen. Teams suchen zunächst bei DNS, Firewall oder Applikation, obwohl die eigentliche Ursache in der Lastverteilung über gleichwertige Pfade liegt. ECMP verteilt Flows nicht paketweise zufällig, sondern auf Basis eines Hashes aus Header-Feldern. Ist nur ein Teil der ECMP-Next-Hops fehlerhaft, dann betrifft der Defekt genau die Flows, die auf diese „schlechten Buckets“ gemappt werden. Das erklärt, warum ein Ping funktionieren kann, während eine TCP-Anwendung scheitert, oder warum nur bestimmte Quell-/Zielkombinationen betroffen sind. Dieser Artikel zeigt praxisnah, wie man ECMP-Störungen erkennt, sauber von anderen Ursachen trennt, mit Minimaldaten belegt und mit einem robusten Response-Plan behebt. Ziel ist eine reproduzierbare Betriebsroutine für NOC, NetOps und SRE, die MTTR senkt, Eskalationen beschleunigt und wiederkehrende Teil-Ausfälle nachhaltig verhindert.
Was ECMP im Betrieb tatsächlich macht
Equal-Cost Multi-Path (ECMP) verteilt Verkehr über mehrere gleichwertige Routingpfade. „Gleichwertig“ bedeutet hier: identische Metrik aus Sicht der Routing-Entscheidung. Die Verteilung erfolgt in der Praxis meist per Hash über ausgewählte Header-Felder. Dadurch bleibt ein Flow stabil auf einem Pfad, während unterschiedliche Flows auf unterschiedliche Pfade verteilt werden.
- Vorteil: bessere Auslastung paralleler Links und höhere Resilienz
- Nebenwirkung: Teildefekte zeigen sich als partielle Störung statt Totalausfall
- Konsequenz: Incident-Symptome wirken „inkonsistent“ und schwer greifbar
Genau hier liegt der Kern des Problems: Nicht „das Netzwerk“ ist kaputt, sondern ein statistisch klar definierter Teil der Flow-Menge.
Warum nur ein Teil des Traffics kaputt ist
Die häufigste Ursache für das typische ECMP-Fehlerbild ist ein fehlerhafter Teilpfad in einer ansonsten gesunden ECMP-Gruppe. Da Flows deterministisch gehasht werden, landen nur bestimmte Flows auf dem defekten Next-Hop. Andere Flows bleiben unbeeinträchtigt.
- Ein Next-Hop hat MTU-Problem, die anderen nicht
- Nur ein Member-Link in einem Port-Channel dropped Traffic
- Asymmetrische ACL/NAT-Regeln auf einem Pfad
- FIB-Inkonsistenz auf einzelnen Knoten
- Optisches Problem auf einem der parallelen Uplinks
Das Resultat: „50 % kaputt“, „nur manche Kunden betroffen“ oder „nur große Transfers scheitern“ – je nachdem, wie der Hash die aktiven Flows verteilt.
Typische Symptomsignaturen im NOC
Anwendungsseitig
- Intermittierende Timeouts bei gleichbleibender Last
- Fehlerraten steigen bei bestimmten APIs, andere bleiben stabil
- Uneinheitliche User Experience zwischen Standorten
Netzwerkseitig
- Ping/ICMP scheinbar stabil, TCP/UDP-Workloads instabil
- Traceroute mal unauffällig, mal abweichend
- Drop-Counter nur auf einzelnen Interfaces/Queues erhöht
- CRC/FCS/Discard-Spikes auf einem Teilpfad
Betriebsseitig
- Störung lässt sich schlecht „global“ reproduzieren
- Reboots oder Reloads helfen nur temporär
- Probleme treten nach Changes in LAG/ECMP-Policy verstärkt auf
Abgrenzung zu ähnlichen Fehlerbildern
Ein ECMP-Issue wird oft mit zufälliger Paketverlustproblematik, DNS-Fehlern oder Overload verwechselt. Die Unterscheidung gelingt über Mustererkennung:
- DNS-Problem: eher Namensauflösung betroffen, IP-direkte Tests oft stabil
- App-Problem: unabhängig vom Pfad, reproduzierbar auch ohne Routenwechsel
- Congestion: korreliert mit Lastspitzen auf mehreren Pfaden
- ECMP-Teildefekt: klare Teilmenge von Flows scheitert deterministisch
Wenn Fehler an Header-Variationen hängen (z. B. andere Quellports), ist ECMP als Ursache besonders wahrscheinlich.
Die Hash-Logik verstehen, ohne zu überkomplizieren
Viele Plattformen nutzen einen Hash aus 5-Tuple (Src-IP, Dst-IP, Src-Port, Dst-Port, Protokoll). Andere nutzen 3-Tuple oder ergänzende Felder. Für die Incident-Praxis reicht eine einfache Arbeitsannahme: Ändern sich diese Felder, kann der Flow auf einem anderen Pfad landen.
- Ein einzelner Langzeit-Flow bleibt oft auf einem Pfad „kleben“
- Viele kurze Sessions verteilen sich statistisch breiter
- NAT oder Load Balancer können die Hash-Verteilung indirekt verändern
Deshalb kann dieselbe Anwendung je nach Session-Verhalten sehr unterschiedlich betroffen sein.
Minimaldaten, die ein ECMP-Issue beweisen
Für eine belastbare Diagnose braucht es keine riesigen Datensätze, sondern gezielte Evidenz:
- ECMP-Next-Hop-Liste im betroffenen Routingkontext
- Interface-Counter je möglichem Teilpfad
- Flow-Erfolgsquote bei kontrollierter Header-Variation
- Fehlerkorrelation mit spezifischem Next-Hop oder Member-Link
- Vorher-/Nachher-Messung nach isolierender Maßnahme
Das Ziel ist ein Kausalbeleg: „Wenn Pfad X genutzt wird, steigt Fehlerrate signifikant.“
Praktische Teststrategie im Incident
Schritt 1: Kontrollierte Flow-Serien
- Mehrere Verbindungen mit variierenden Quellports erzeugen
- Erfolgs-/Fehlerquote je Serie dokumentieren
- Zeitgleich Interface-/Drop-Counter beobachten
Schritt 2: Pfad-Korrelation herstellen
- Per Telemetrie oder Gerätestatistik den genutzten Next-Hop je Flow erfassen
- Fehlerhafte Flows einem spezifischen Teilpfad zuordnen
Schritt 3: Hypothese durch Isolation prüfen
- Defekten Next-Hop temporär aus ECMP entfernen oder gewichten
- Messserie wiederholen und Differenz auswerten
Wenn die Fehlerquote nach Isolation kollabiert, ist die Ursache klar eingegrenzt.
Beispielrechnung für partielle Ausfälle
Angenommen, eine ECMP-Gruppe hat vier gleich gewichtete Pfade, davon ist ein Pfad defekt. Unter ideal gleichmäßiger Verteilung ergibt sich:
Real können die Werte abweichen, weil Hash-Verteilung, Traffic-Mix und Session-Dauer selten perfekt gleichmäßig sind.
Root-Cause-Klassen bei ECMP-Störungen
- Physisch: Optik, Kabel, CRC, Dämpfung, Interferenzen
- Link/LAG: fehlerhafter Member, Inkonsistenz in LACP-Parametern
- L3/FIB: inkonsistente Programmierung, stale entries, ECMP-Set-Drift
- Policy: ACL/QoS/NAT nur auf Teilpfad aktiv
- MTU: Fragmentierungs-/PMTUD-Probleme auf einem Next-Hop
Für die Entstörung entscheidend ist die Reihenfolge: erst Korrelation zum Teilpfad, dann Tiefenanalyse der Klasse.
Response-Plan für die ersten 20 Minuten
Minute 0–5: Scope und Risikobild
- Welche Services, Standorte, Tenants sind betroffen?
- Ist das Muster partiell und reproduzierbar?
- Gibt es korrelierende jüngste Changes?
Minute 5–12: ECMP-Hypothese verifizieren
- Next-Hop-/Member-Set prüfen
- Flow-Serientests mit Header-Variation durchführen
- Counter- und Drop-Korrelation sichern
Minute 12–20: Risikoarmes Containment
- Verdächtigen Pfad gezielt aus der Verteilung nehmen
- Stabilitätsfenster messen (Fehlerrate, Latenz, Retransmits)
- War-Room-Update im festen Format kommunizieren
War-Room-Update-Format ohne Noise
- Beobachtung: „Nur 22–30 % der Flows schlagen fehl“
- Hypothese: „Teildefekt in ECMP-Next-Hop NH3“
- Aktion: „NH3 temporär aus ECMP entfernt“
- Ergebnis: „Fehlerrate von 27 % auf 1,2 % gefallen“
- Nächster Schritt: „RCA auf physischem Uplink von NH3“
So bleiben technische und organisatorische Entscheidungen synchron.
Preventive Engineering gegen Wiederholungsfehler
- Pfadkonsistenz-Checks nach jedem Change automatisieren
- Health-Scoring pro ECMP-Next-Hop einführen
- LAG/ECMP-Telemetrie in einer gemeinsamen Sicht korrelieren
- SLOs für partielle Fehlerraten definieren, nicht nur „up/down“
- Canary-Flows mit variierenden Headern kontinuierlich testen
Je früher partielle Pfaddefekte erkannt werden, desto geringer ist der Customer Impact.
Messbare Qualitätskennzahlen für ECMP-Betrieb
- Flow-Erfolgsquote pro Next-Hop
- Retransmit-Rate pro Pfadklasse
- Drop- und Error-Counter pro ECMP-Mitglied
- Zeit bis zur Pfad-Isolation im Incident
- MTTR separat für „partielle“ vs. „globale“ Störungen
Eine sinnvolle Kennzahl zur Verteilungsgüte kann als Abweichung von der erwarteten Last genutzt werden:
Hohe Imbalance-Werte sind ein Warnsignal für Hash- oder Pfadprobleme.
Typische Fehlentscheidungen im Incident und bessere Alternativen
- Fehlentscheidung: Globaler Neustart mehrerer Geräte
Besser: gezielte Pfad-Isolation mit Messbezug - Fehlentscheidung: Fokus auf Ping-Tests
Besser: anwendungsnahe Mehrflow-Tests - Fehlentscheidung: gleichzeitige Policy-Änderungen
Besser: serielle Änderungen mit Vorher-/Nachher-Vergleich - Fehlentscheidung: Incident schließen bei erstem Rückgang der Alarme
Besser: Stabilitätskriterien über definiertes Zeitfenster
Eskalationsfähiges Evidence-Pack
- Timeline mit allen Maßnahmen und Zeitstempeln
- ECMP-Set vor/nach Containment
- Fehlerraten je Testserie und Flow-Gruppe
- Counter-/Drop-Entwicklung pro betroffenem Pfad
- Konfigurationsdiff für LAG, ECMP, MTU, Policy
- Nachweis der Service-Normalisierung
Ein starkes Evidence-Pack verkürzt L3-Eskalationen und verbessert Audit-Festigkeit.
Outbound-Links zu relevanten Informationsquellen
- RFC 2991: Multipath Issues in Unicast and Multicast Next-Hop Selection
- RFC 2992: Analysis of an Equal-Cost Multi-Path Algorithm
- RFC 791: Internet Protocol (Fragmentierung/MTU-Kontext)
- RFC 1191: Path MTU Discovery
- RFC 4271: BGP-4 (relevant bei ECMP über BGP-Nexthops)
Runbook-Baustein für den operativen Alltag
- Incident-Kategorie „Partielle Flow-Fehler“ im Ticketing standardisieren
- Pflichttest: Header-Variation zur Hash-Pfad-Abgrenzung
- Pflichtmetriken: Next-Hop-Health, Drop-Counter, Retransmits
- Containment-Regel: minimalinvasiv, reversibel, messbar
- Post-Incident: Root Cause + systemische Prävention dokumentieren
Ein sauber umgesetztes Betriebsmodell für ECMP-Issue: Warum nur ein Teil des Traffics kaputt ist verwandelt ein scheinbar chaotisches Fehlerbild in einen klar strukturierten Diagnose- und Behebungsprozess. Dadurch werden Teil-Ausfälle schneller erkannt, Risiken früher begrenzt und Serviceunterbrechungen deutlich reduziert.
Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte
Cisco Networking • CCNA • Packet Tracer • Network Configuration
Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.
Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.
Leistungsumfang:
-
Netzwerkdesign & Topologie-Planung
-
Router- & Switch-Konfiguration (Cisco IOS)
-
VLAN, Inter-VLAN Routing
-
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
-
NAT, ACL, DHCP, DNS-Konfiguration
-
Troubleshooting & Netzwerkoptimierung
-
Packet Tracer Projektentwicklung & Dokumentation
-
CCNA Lern- & Praxisunterstützung
Lieferumfang:
-
Konfigurationsdateien
-
Packet-Tracer-Dateien (.pkt)
-
Netzwerkdokumentation
-
Schritt-für-Schritt-Erklärungen (auf Wunsch)
Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert
CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.










