February 18, 2026

ECMP-Issue: Warum nur ein Teil des Traffics kaputt ist

Ein typisches ECMP-Issue: Warum nur ein Teil des Traffics kaputt ist gehört zu den irritierendsten Fehlerbildern im Netzwerkbetrieb. Aus Sicht von Anwendern wirkt die Störung „zufällig“: Manche Verbindungen funktionieren stabil, andere brechen reproduzierbar ab, Downloads laufen mal schnell und mal gar nicht, API-Calls liefern eine gemischte Quote aus Erfolgen und Timeouts. Genau dieses Muster führt im Alltag oft zu Fehldiagnosen. Teams suchen zunächst bei DNS, Firewall oder Applikation, obwohl die eigentliche Ursache in der Lastverteilung über gleichwertige Pfade liegt. ECMP verteilt Flows nicht paketweise zufällig, sondern auf Basis eines Hashes aus Header-Feldern. Ist nur ein Teil der ECMP-Next-Hops fehlerhaft, dann betrifft der Defekt genau die Flows, die auf diese „schlechten Buckets“ gemappt werden. Das erklärt, warum ein Ping funktionieren kann, während eine TCP-Anwendung scheitert, oder warum nur bestimmte Quell-/Zielkombinationen betroffen sind. Dieser Artikel zeigt praxisnah, wie man ECMP-Störungen erkennt, sauber von anderen Ursachen trennt, mit Minimaldaten belegt und mit einem robusten Response-Plan behebt. Ziel ist eine reproduzierbare Betriebsroutine für NOC, NetOps und SRE, die MTTR senkt, Eskalationen beschleunigt und wiederkehrende Teil-Ausfälle nachhaltig verhindert.

Table of Contents

Was ECMP im Betrieb tatsächlich macht

Equal-Cost Multi-Path (ECMP) verteilt Verkehr über mehrere gleichwertige Routingpfade. „Gleichwertig“ bedeutet hier: identische Metrik aus Sicht der Routing-Entscheidung. Die Verteilung erfolgt in der Praxis meist per Hash über ausgewählte Header-Felder. Dadurch bleibt ein Flow stabil auf einem Pfad, während unterschiedliche Flows auf unterschiedliche Pfade verteilt werden.

Vorteil: bessere Auslastung paralleler Links und höhere Resilienz
Nebenwirkung: Teildefekte zeigen sich als partielle Störung statt Totalausfall
Konsequenz: Incident-Symptome wirken „inkonsistent“ und schwer greifbar

Genau hier liegt der Kern des Problems: Nicht „das Netzwerk“ ist kaputt, sondern ein statistisch klar definierter Teil der Flow-Menge.

Warum nur ein Teil des Traffics kaputt ist

Die häufigste Ursache für das typische ECMP-Fehlerbild ist ein fehlerhafter Teilpfad in einer ansonsten gesunden ECMP-Gruppe. Da Flows deterministisch gehasht werden, landen nur bestimmte Flows auf dem defekten Next-Hop. Andere Flows bleiben unbeeinträchtigt.

Ein Next-Hop hat MTU-Problem, die anderen nicht
Nur ein Member-Link in einem Port-Channel dropped Traffic
Asymmetrische ACL/NAT-Regeln auf einem Pfad
FIB-Inkonsistenz auf einzelnen Knoten
Optisches Problem auf einem der parallelen Uplinks

Das Resultat: „50 % kaputt“, „nur manche Kunden betroffen“ oder „nur große Transfers scheitern“ – je nachdem, wie der Hash die aktiven Flows verteilt.

Typische Symptomsignaturen im NOC

Anwendungsseitig

Intermittierende Timeouts bei gleichbleibender Last
Fehlerraten steigen bei bestimmten APIs, andere bleiben stabil
Uneinheitliche User Experience zwischen Standorten

Netzwerkseitig

Ping/ICMP scheinbar stabil, TCP/UDP-Workloads instabil
Traceroute mal unauffällig, mal abweichend
Drop-Counter nur auf einzelnen Interfaces/Queues erhöht
CRC/FCS/Discard-Spikes auf einem Teilpfad

Betriebsseitig

Störung lässt sich schlecht „global“ reproduzieren
Reboots oder Reloads helfen nur temporär
Probleme treten nach Changes in LAG/ECMP-Policy verstärkt auf

Abgrenzung zu ähnlichen Fehlerbildern

Ein ECMP-Issue wird oft mit zufälliger Paketverlustproblematik, DNS-Fehlern oder Overload verwechselt. Die Unterscheidung gelingt über Mustererkennung:

DNS-Problem: eher Namensauflösung betroffen, IP-direkte Tests oft stabil
App-Problem: unabhängig vom Pfad, reproduzierbar auch ohne Routenwechsel
Congestion: korreliert mit Lastspitzen auf mehreren Pfaden
ECMP-Teildefekt: klare Teilmenge von Flows scheitert deterministisch

Wenn Fehler an Header-Variationen hängen (z. B. andere Quellports), ist ECMP als Ursache besonders wahrscheinlich.

Die Hash-Logik verstehen, ohne zu überkomplizieren

Viele Plattformen nutzen einen Hash aus 5-Tuple (Src-IP, Dst-IP, Src-Port, Dst-Port, Protokoll). Andere nutzen 3-Tuple oder ergänzende Felder. Für die Incident-Praxis reicht eine einfache Arbeitsannahme: Ändern sich diese Felder, kann der Flow auf einem anderen Pfad landen.

Ein einzelner Langzeit-Flow bleibt oft auf einem Pfad „kleben“
Viele kurze Sessions verteilen sich statistisch breiter
NAT oder Load Balancer können die Hash-Verteilung indirekt verändern

Deshalb kann dieselbe Anwendung je nach Session-Verhalten sehr unterschiedlich betroffen sein.

Minimaldaten, die ein ECMP-Issue beweisen

Für eine belastbare Diagnose braucht es keine riesigen Datensätze, sondern gezielte Evidenz:

ECMP-Next-Hop-Liste im betroffenen Routingkontext
Interface-Counter je möglichem Teilpfad
Flow-Erfolgsquote bei kontrollierter Header-Variation
Fehlerkorrelation mit spezifischem Next-Hop oder Member-Link
Vorher-/Nachher-Messung nach isolierender Maßnahme

Das Ziel ist ein Kausalbeleg: „Wenn Pfad X genutzt wird, steigt Fehlerrate signifikant.“

Praktische Teststrategie im Incident

Schritt 1: Kontrollierte Flow-Serien

Mehrere Verbindungen mit variierenden Quellports erzeugen
Erfolgs-/Fehlerquote je Serie dokumentieren
Zeitgleich Interface-/Drop-Counter beobachten

Schritt 2: Pfad-Korrelation herstellen

Per Telemetrie oder Gerätestatistik den genutzten Next-Hop je Flow erfassen
Fehlerhafte Flows einem spezifischen Teilpfad zuordnen

Schritt 3: Hypothese durch Isolation prüfen

Defekten Next-Hop temporär aus ECMP entfernen oder gewichten
Messserie wiederholen und Differenz auswerten

Wenn die Fehlerquote nach Isolation kollabiert, ist die Ursache klar eingegrenzt.

Beispielrechnung für partielle Ausfälle

Angenommen, eine ECMP-Gruppe hat vier gleich gewichtete Pfade, davon ist ein Pfad defekt. Unter ideal gleichmäßiger Verteilung ergibt sich:

$Fehlerquote = \frac{defektePfadanteile}{gesamtPfadanteile} = \frac{1}{4} = 0.25 = 25 %$

Real können die Werte abweichen, weil Hash-Verteilung, Traffic-Mix und Session-Dauer selten perfekt gleichmäßig sind.

Root-Cause-Klassen bei ECMP-Störungen

Physisch: Optik, Kabel, CRC, Dämpfung, Interferenzen
Link/LAG: fehlerhafter Member, Inkonsistenz in LACP-Parametern
L3/FIB: inkonsistente Programmierung, stale entries, ECMP-Set-Drift
Policy: ACL/QoS/NAT nur auf Teilpfad aktiv
MTU: Fragmentierungs-/PMTUD-Probleme auf einem Next-Hop

Für die Entstörung entscheidend ist die Reihenfolge: erst Korrelation zum Teilpfad, dann Tiefenanalyse der Klasse.

Response-Plan für die ersten 20 Minuten

Minute 0–5: Scope und Risikobild

Welche Services, Standorte, Tenants sind betroffen?
Ist das Muster partiell und reproduzierbar?
Gibt es korrelierende jüngste Changes?

Minute 5–12: ECMP-Hypothese verifizieren

Next-Hop-/Member-Set prüfen
Flow-Serientests mit Header-Variation durchführen
Counter- und Drop-Korrelation sichern

Minute 12–20: Risikoarmes Containment

Verdächtigen Pfad gezielt aus der Verteilung nehmen
Stabilitätsfenster messen (Fehlerrate, Latenz, Retransmits)
War-Room-Update im festen Format kommunizieren

War-Room-Update-Format ohne Noise

Beobachtung: „Nur 22–30 % der Flows schlagen fehl“
Hypothese: „Teildefekt in ECMP-Next-Hop NH3“
Aktion: „NH3 temporär aus ECMP entfernt“
Ergebnis: „Fehlerrate von 27 % auf 1,2 % gefallen“
Nächster Schritt: „RCA auf physischem Uplink von NH3“

So bleiben technische und organisatorische Entscheidungen synchron.

Preventive Engineering gegen Wiederholungsfehler

Pfadkonsistenz-Checks nach jedem Change automatisieren
Health-Scoring pro ECMP-Next-Hop einführen
LAG/ECMP-Telemetrie in einer gemeinsamen Sicht korrelieren
SLOs für partielle Fehlerraten definieren, nicht nur „up/down“
Canary-Flows mit variierenden Headern kontinuierlich testen

Je früher partielle Pfaddefekte erkannt werden, desto geringer ist der Customer Impact.

Messbare Qualitätskennzahlen für ECMP-Betrieb

Flow-Erfolgsquote pro Next-Hop
Retransmit-Rate pro Pfadklasse
Drop- und Error-Counter pro ECMP-Mitglied
Zeit bis zur Pfad-Isolation im Incident
MTTR separat für „partielle“ vs. „globale“ Störungen

Eine sinnvolle Kennzahl zur Verteilungsgüte kann als Abweichung von der erwarteten Last genutzt werden:

$Imbalance = \frac{| Load ist - Load soll |}{Load}$

Hohe Imbalance-Werte sind ein Warnsignal für Hash- oder Pfadprobleme.

Typische Fehlentscheidungen im Incident und bessere Alternativen

Fehlentscheidung: Globaler Neustart mehrerer Geräte
Besser: gezielte Pfad-Isolation mit Messbezug
Fehlentscheidung: Fokus auf Ping-Tests
Besser: anwendungsnahe Mehrflow-Tests
Fehlentscheidung: gleichzeitige Policy-Änderungen
Besser: serielle Änderungen mit Vorher-/Nachher-Vergleich
Fehlentscheidung: Incident schließen bei erstem Rückgang der Alarme
Besser: Stabilitätskriterien über definiertes Zeitfenster

Eskalationsfähiges Evidence-Pack

Timeline mit allen Maßnahmen und Zeitstempeln
ECMP-Set vor/nach Containment
Fehlerraten je Testserie und Flow-Gruppe
Counter-/Drop-Entwicklung pro betroffenem Pfad
Konfigurationsdiff für LAG, ECMP, MTU, Policy
Nachweis der Service-Normalisierung

Ein starkes Evidence-Pack verkürzt L3-Eskalationen und verbessert Audit-Festigkeit.

Outbound-Links zu relevanten Informationsquellen

Runbook-Baustein für den operativen Alltag

Incident-Kategorie „Partielle Flow-Fehler“ im Ticketing standardisieren
Pflichttest: Header-Variation zur Hash-Pfad-Abgrenzung
Pflichtmetriken: Next-Hop-Health, Drop-Counter, Retransmits
Containment-Regel: minimalinvasiv, reversibel, messbar
Post-Incident: Root Cause + systemische Prävention dokumentieren

Ein sauber umgesetztes Betriebsmodell für ECMP-Issue: Warum nur ein Teil des Traffics kaputt ist verwandelt ein scheinbar chaotisches Fehlerbild in einen klar strukturierten Diagnose- und Behebungsprozess. Dadurch werden Teil-Ausfälle schneller erkannt, Risiken früher begrenzt und Serviceunterbrechungen deutlich reduziert.

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.

ECMP-Issue: Warum nur ein Teil des Traffics kaputt ist

Hardening für Dual-ISP-Edge: Failover-Risiken in Policies verhindern

Hardening für VPN IPsec: Crypto Baseline, DPD, Rekey und Stabilität

Hardening DMVPN: Control-Plane-Security, NHRP Hygiene und Segmentierung

Hardening für Remote-Access-VPN: User-Segmentierung, Split Tunnel und Logging

Hardening für Multi-Tenant/Partner Links: VRF & sichere Policy Boundaries

Hardening für Remote Branches: OOB-Herausforderungen und operative Guardrails

Case Study: Management Exposure am Edge-Router schließen (Before/After Evidence)

Case Study: Audit findet Route-Leak-Risiko am Cisco-Router (strukturierte Remediation)

Case Study: SNMPv3 + Syslog-SIEM-Migration für Auditability

Cisco Router Security Hardening Service: Scope, Deliverables und Enterprise-Timeline

Exposure Management: „Open Management Ports“ aus dem Internet auditieren

Cisco-Router-Forensik Basics: Evidenzen, die bei Incidents Pflicht sind

ECMP-Issue: Warum nur ein Teil des Traffics kaputt ist

Was ECMP im Betrieb tatsächlich macht

Warum nur ein Teil des Traffics kaputt ist

Typische Symptomsignaturen im NOC

Anwendungsseitig

Netzwerkseitig

Betriebsseitig

Abgrenzung zu ähnlichen Fehlerbildern

Die Hash-Logik verstehen, ohne zu überkomplizieren

Minimaldaten, die ein ECMP-Issue beweisen

Praktische Teststrategie im Incident

Schritt 1: Kontrollierte Flow-Serien

Schritt 2: Pfad-Korrelation herstellen

Schritt 3: Hypothese durch Isolation prüfen

Beispielrechnung für partielle Ausfälle

Root-Cause-Klassen bei ECMP-Störungen

Response-Plan für die ersten 20 Minuten

Minute 0–5: Scope und Risikobild

Minute 5–12: ECMP-Hypothese verifizieren

Minute 12–20: Risikoarmes Containment

War-Room-Update-Format ohne Noise

Preventive Engineering gegen Wiederholungsfehler

Messbare Qualitätskennzahlen für ECMP-Betrieb

Typische Fehlentscheidungen im Incident und bessere Alternativen

Eskalationsfähiges Evidence-Pack

Outbound-Links zu relevanten Informationsquellen

Runbook-Baustein für den operativen Alltag

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Related Articles

Book a Phone Consultation!

Your Cart