ECMP-Issue: Warum nur ein Teil des Traffics kaputt ist

Ein typisches ECMP-Issue: Warum nur ein Teil des Traffics kaputt ist gehört zu den irritierendsten Fehlerbildern im Netzwerkbetrieb. Aus Sicht von Anwendern wirkt die Störung „zufällig“: Manche Verbindungen funktionieren stabil, andere brechen reproduzierbar ab, Downloads laufen mal schnell und mal gar nicht, API-Calls liefern eine gemischte Quote aus Erfolgen und Timeouts. Genau dieses Muster führt im Alltag oft zu Fehldiagnosen. Teams suchen zunächst bei DNS, Firewall oder Applikation, obwohl die eigentliche Ursache in der Lastverteilung über gleichwertige Pfade liegt. ECMP verteilt Flows nicht paketweise zufällig, sondern auf Basis eines Hashes aus Header-Feldern. Ist nur ein Teil der ECMP-Next-Hops fehlerhaft, dann betrifft der Defekt genau die Flows, die auf diese „schlechten Buckets“ gemappt werden. Das erklärt, warum ein Ping funktionieren kann, während eine TCP-Anwendung scheitert, oder warum nur bestimmte Quell-/Zielkombinationen betroffen sind. Dieser Artikel zeigt praxisnah, wie man ECMP-Störungen erkennt, sauber von anderen Ursachen trennt, mit Minimaldaten belegt und mit einem robusten Response-Plan behebt. Ziel ist eine reproduzierbare Betriebsroutine für NOC, NetOps und SRE, die MTTR senkt, Eskalationen beschleunigt und wiederkehrende Teil-Ausfälle nachhaltig verhindert.

Was ECMP im Betrieb tatsächlich macht

Equal-Cost Multi-Path (ECMP) verteilt Verkehr über mehrere gleichwertige Routingpfade. „Gleichwertig“ bedeutet hier: identische Metrik aus Sicht der Routing-Entscheidung. Die Verteilung erfolgt in der Praxis meist per Hash über ausgewählte Header-Felder. Dadurch bleibt ein Flow stabil auf einem Pfad, während unterschiedliche Flows auf unterschiedliche Pfade verteilt werden.

  • Vorteil: bessere Auslastung paralleler Links und höhere Resilienz
  • Nebenwirkung: Teildefekte zeigen sich als partielle Störung statt Totalausfall
  • Konsequenz: Incident-Symptome wirken „inkonsistent“ und schwer greifbar

Genau hier liegt der Kern des Problems: Nicht „das Netzwerk“ ist kaputt, sondern ein statistisch klar definierter Teil der Flow-Menge.

Warum nur ein Teil des Traffics kaputt ist

Die häufigste Ursache für das typische ECMP-Fehlerbild ist ein fehlerhafter Teilpfad in einer ansonsten gesunden ECMP-Gruppe. Da Flows deterministisch gehasht werden, landen nur bestimmte Flows auf dem defekten Next-Hop. Andere Flows bleiben unbeeinträchtigt.

  • Ein Next-Hop hat MTU-Problem, die anderen nicht
  • Nur ein Member-Link in einem Port-Channel dropped Traffic
  • Asymmetrische ACL/NAT-Regeln auf einem Pfad
  • FIB-Inkonsistenz auf einzelnen Knoten
  • Optisches Problem auf einem der parallelen Uplinks

Das Resultat: „50 % kaputt“, „nur manche Kunden betroffen“ oder „nur große Transfers scheitern“ – je nachdem, wie der Hash die aktiven Flows verteilt.

Typische Symptomsignaturen im NOC

Anwendungsseitig

  • Intermittierende Timeouts bei gleichbleibender Last
  • Fehlerraten steigen bei bestimmten APIs, andere bleiben stabil
  • Uneinheitliche User Experience zwischen Standorten

Netzwerkseitig

  • Ping/ICMP scheinbar stabil, TCP/UDP-Workloads instabil
  • Traceroute mal unauffällig, mal abweichend
  • Drop-Counter nur auf einzelnen Interfaces/Queues erhöht
  • CRC/FCS/Discard-Spikes auf einem Teilpfad

Betriebsseitig

  • Störung lässt sich schlecht „global“ reproduzieren
  • Reboots oder Reloads helfen nur temporär
  • Probleme treten nach Changes in LAG/ECMP-Policy verstärkt auf

Abgrenzung zu ähnlichen Fehlerbildern

Ein ECMP-Issue wird oft mit zufälliger Paketverlustproblematik, DNS-Fehlern oder Overload verwechselt. Die Unterscheidung gelingt über Mustererkennung:

  • DNS-Problem: eher Namensauflösung betroffen, IP-direkte Tests oft stabil
  • App-Problem: unabhängig vom Pfad, reproduzierbar auch ohne Routenwechsel
  • Congestion: korreliert mit Lastspitzen auf mehreren Pfaden
  • ECMP-Teildefekt: klare Teilmenge von Flows scheitert deterministisch

Wenn Fehler an Header-Variationen hängen (z. B. andere Quellports), ist ECMP als Ursache besonders wahrscheinlich.

Die Hash-Logik verstehen, ohne zu überkomplizieren

Viele Plattformen nutzen einen Hash aus 5-Tuple (Src-IP, Dst-IP, Src-Port, Dst-Port, Protokoll). Andere nutzen 3-Tuple oder ergänzende Felder. Für die Incident-Praxis reicht eine einfache Arbeitsannahme: Ändern sich diese Felder, kann der Flow auf einem anderen Pfad landen.

  • Ein einzelner Langzeit-Flow bleibt oft auf einem Pfad „kleben“
  • Viele kurze Sessions verteilen sich statistisch breiter
  • NAT oder Load Balancer können die Hash-Verteilung indirekt verändern

Deshalb kann dieselbe Anwendung je nach Session-Verhalten sehr unterschiedlich betroffen sein.

Minimaldaten, die ein ECMP-Issue beweisen

Für eine belastbare Diagnose braucht es keine riesigen Datensätze, sondern gezielte Evidenz:

  • ECMP-Next-Hop-Liste im betroffenen Routingkontext
  • Interface-Counter je möglichem Teilpfad
  • Flow-Erfolgsquote bei kontrollierter Header-Variation
  • Fehlerkorrelation mit spezifischem Next-Hop oder Member-Link
  • Vorher-/Nachher-Messung nach isolierender Maßnahme

Das Ziel ist ein Kausalbeleg: „Wenn Pfad X genutzt wird, steigt Fehlerrate signifikant.“

Praktische Teststrategie im Incident

Schritt 1: Kontrollierte Flow-Serien

  • Mehrere Verbindungen mit variierenden Quellports erzeugen
  • Erfolgs-/Fehlerquote je Serie dokumentieren
  • Zeitgleich Interface-/Drop-Counter beobachten

Schritt 2: Pfad-Korrelation herstellen

  • Per Telemetrie oder Gerätestatistik den genutzten Next-Hop je Flow erfassen
  • Fehlerhafte Flows einem spezifischen Teilpfad zuordnen

Schritt 3: Hypothese durch Isolation prüfen

  • Defekten Next-Hop temporär aus ECMP entfernen oder gewichten
  • Messserie wiederholen und Differenz auswerten

Wenn die Fehlerquote nach Isolation kollabiert, ist die Ursache klar eingegrenzt.

Beispielrechnung für partielle Ausfälle

Angenommen, eine ECMP-Gruppe hat vier gleich gewichtete Pfade, davon ist ein Pfad defekt. Unter ideal gleichmäßiger Verteilung ergibt sich:

Fehlerquote = defektePfadanteile gesamtPfadanteile = 1 4 = 0.25 = 25%

Real können die Werte abweichen, weil Hash-Verteilung, Traffic-Mix und Session-Dauer selten perfekt gleichmäßig sind.

Root-Cause-Klassen bei ECMP-Störungen

  • Physisch: Optik, Kabel, CRC, Dämpfung, Interferenzen
  • Link/LAG: fehlerhafter Member, Inkonsistenz in LACP-Parametern
  • L3/FIB: inkonsistente Programmierung, stale entries, ECMP-Set-Drift
  • Policy: ACL/QoS/NAT nur auf Teilpfad aktiv
  • MTU: Fragmentierungs-/PMTUD-Probleme auf einem Next-Hop

Für die Entstörung entscheidend ist die Reihenfolge: erst Korrelation zum Teilpfad, dann Tiefenanalyse der Klasse.

Response-Plan für die ersten 20 Minuten

Minute 0–5: Scope und Risikobild

  • Welche Services, Standorte, Tenants sind betroffen?
  • Ist das Muster partiell und reproduzierbar?
  • Gibt es korrelierende jüngste Changes?

Minute 5–12: ECMP-Hypothese verifizieren

  • Next-Hop-/Member-Set prüfen
  • Flow-Serientests mit Header-Variation durchführen
  • Counter- und Drop-Korrelation sichern

Minute 12–20: Risikoarmes Containment

  • Verdächtigen Pfad gezielt aus der Verteilung nehmen
  • Stabilitätsfenster messen (Fehlerrate, Latenz, Retransmits)
  • War-Room-Update im festen Format kommunizieren

War-Room-Update-Format ohne Noise

  • Beobachtung: „Nur 22–30 % der Flows schlagen fehl“
  • Hypothese: „Teildefekt in ECMP-Next-Hop NH3“
  • Aktion: „NH3 temporär aus ECMP entfernt“
  • Ergebnis: „Fehlerrate von 27 % auf 1,2 % gefallen“
  • Nächster Schritt: „RCA auf physischem Uplink von NH3“

So bleiben technische und organisatorische Entscheidungen synchron.

Preventive Engineering gegen Wiederholungsfehler

  • Pfadkonsistenz-Checks nach jedem Change automatisieren
  • Health-Scoring pro ECMP-Next-Hop einführen
  • LAG/ECMP-Telemetrie in einer gemeinsamen Sicht korrelieren
  • SLOs für partielle Fehlerraten definieren, nicht nur „up/down“
  • Canary-Flows mit variierenden Headern kontinuierlich testen

Je früher partielle Pfaddefekte erkannt werden, desto geringer ist der Customer Impact.

Messbare Qualitätskennzahlen für ECMP-Betrieb

  • Flow-Erfolgsquote pro Next-Hop
  • Retransmit-Rate pro Pfadklasse
  • Drop- und Error-Counter pro ECMP-Mitglied
  • Zeit bis zur Pfad-Isolation im Incident
  • MTTR separat für „partielle“ vs. „globale“ Störungen

Eine sinnvolle Kennzahl zur Verteilungsgüte kann als Abweichung von der erwarteten Last genutzt werden:

Imbalance = |LoadistLoadsoll| Loadsoll

Hohe Imbalance-Werte sind ein Warnsignal für Hash- oder Pfadprobleme.

Typische Fehlentscheidungen im Incident und bessere Alternativen

  • Fehlentscheidung: Globaler Neustart mehrerer Geräte
    Besser: gezielte Pfad-Isolation mit Messbezug
  • Fehlentscheidung: Fokus auf Ping-Tests
    Besser: anwendungsnahe Mehrflow-Tests
  • Fehlentscheidung: gleichzeitige Policy-Änderungen
    Besser: serielle Änderungen mit Vorher-/Nachher-Vergleich
  • Fehlentscheidung: Incident schließen bei erstem Rückgang der Alarme
    Besser: Stabilitätskriterien über definiertes Zeitfenster

Eskalationsfähiges Evidence-Pack

  • Timeline mit allen Maßnahmen und Zeitstempeln
  • ECMP-Set vor/nach Containment
  • Fehlerraten je Testserie und Flow-Gruppe
  • Counter-/Drop-Entwicklung pro betroffenem Pfad
  • Konfigurationsdiff für LAG, ECMP, MTU, Policy
  • Nachweis der Service-Normalisierung

Ein starkes Evidence-Pack verkürzt L3-Eskalationen und verbessert Audit-Festigkeit.

Outbound-Links zu relevanten Informationsquellen

Runbook-Baustein für den operativen Alltag

  • Incident-Kategorie „Partielle Flow-Fehler“ im Ticketing standardisieren
  • Pflichttest: Header-Variation zur Hash-Pfad-Abgrenzung
  • Pflichtmetriken: Next-Hop-Health, Drop-Counter, Retransmits
  • Containment-Regel: minimalinvasiv, reversibel, messbar
  • Post-Incident: Root Cause + systemische Prävention dokumentieren

Ein sauber umgesetztes Betriebsmodell für ECMP-Issue: Warum nur ein Teil des Traffics kaputt ist verwandelt ein scheinbar chaotisches Fehlerbild in einen klar strukturierten Diagnose- und Behebungsprozess. Dadurch werden Teil-Ausfälle schneller erkannt, Risiken früher begrenzt und Serviceunterbrechungen deutlich reduziert.

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

  • Netzwerkdesign & Topologie-Planung

  • Router- & Switch-Konfiguration (Cisco IOS)

  • VLAN, Inter-VLAN Routing

  • OSPF, RIP, EIGRP (Grundlagen & Implementierung)

  • NAT, ACL, DHCP, DNS-Konfiguration

  • Troubleshooting & Netzwerkoptimierung

  • Packet Tracer Projektentwicklung & Dokumentation

  • CCNA Lern- & Praxisunterstützung

Lieferumfang:

  • Konfigurationsdateien

  • Packet-Tracer-Dateien (.pkt)

  • Netzwerkdokumentation

  • Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.

 

Related Articles