Site icon bintorosoft.com

EVPN/VXLAN QoS: Marking Preservation und Overlay Encapsulation

EVPN/VXLAN QoS ist in modernen Data-Center- und Provider-Fabrics ein zentrales Thema, weil Overlay-Encapsulation die klassische QoS-Logik leicht aushebelt: Markierungen werden zwar am Endpunkt gesetzt, aber im Underlay entscheidet oft der Outer Header über Queueing und Congestion – und genau dort gehen Markings häufig verloren oder werden falsch gemappt. Das Ergebnis sind typische „Overlay-QoS“-Probleme: Voice/Video oder latenzkritische Microservices sind sauber als DSCP EF/AF markiert, kommen aber im Underlay als Best Effort an; ECN/AQM wirkt nur auf einen Teil des Pfads; oder MTU/Fragmentierung erzeugt Drops, die wie „mysteriöse“ Echtzeitstörungen wirken. EVPN/VXLAN QoS bedeutet deshalb vor allem zwei Dinge: Marking Preservation (inneres Marking erhalten und sinnvoll auswerten) und Encapsulation-Awareness (Outer Header korrekt markieren und in Underlay-Queues mappen). Wer das professionell plant, definiert klare Trust Boundaries an den VTEPs (VXLAN Tunnel Endpoints), standardisiert DSCP↔PCP/CoS↔Queue-Mappings im Fabric-Underlay, berücksichtigt den Header-Overhead in Bandbreiten- und MTU-Modellen und misst QoS nicht nur „im Overlay“, sondern hop-by-hop im Underlay über Queue-Delay, Drops und ECN-Marks.

Warum Overlays QoS komplexer machen: Inner vs. Outer Header entscheidet

In einem klassischen L3-Netz ist DSCP im IP-Header das zentrale QoS-Signal. In EVPN/VXLAN kommt jedoch eine Encapsulation dazu: Ein inneres Ethernet/IP-Paket wird in VXLAN gekapselt und über ein Underlay (meist IP) transportiert. Die Underlay-Geräte sehen für die Forwarding- und QoS-Entscheidung primär den Outer IP-Header und dessen DSCP – nicht den inneren DSCP. Wenn der Outer DSCP nicht korrekt gesetzt ist, kann das Underlay Echtzeitverkehr nicht priorisieren, selbst wenn der innere Traffic perfekt markiert ist. Deshalb ist die wichtigste Designfrage: Welche Markings werden im Underlay verwendet, und wie werden sie vom Inner Header abgeleitet?

EVPN/VXLAN Datenpfad in QoS-Sicht: Wo tatsächlich gequeued wird

QoS wirkt nur bei Congestion – und Congestion entsteht im Data Center häufig an Uplinks (Leaf→Spine oder Spine→Border), an Borders Richtung WAN/Interconnect, an East-West Hotspots und bei Microbursts durch Fan-in. In einer EVPN/VXLAN-Fabric ist es daher essenziell zu wissen, an welchen Interfaces Stau realistisch ist und welche Header dort ausgewertet werden. In der Regel sind das Underlay-Interfaces, die nur den Outer Header sehen. Das ist der Grund, warum Marking Preservation allein nicht reicht: Sie müssen Marking für das Underlay explizit korrekt setzen.

Marking Preservation: Was „erhalten“ in EVPN/VXLAN wirklich bedeutet

Marking Preservation wird oft missverstanden als „inneres DSCP bleibt drin“. Das ist notwendig, aber nicht hinreichend. In EVPN/VXLAN gibt es drei relevante Preservation-Aspekte: Erstens muss das innere Marking beim Encapsulieren nicht verloren gehen (z. B. durch eine Default-Normalisierung am VTEP). Zweitens muss es beim Decapsulieren wieder korrekt an das ausgehende Paket gebunden werden. Drittens muss das Marking in Übergängen zu anderen Domänen (WAN, MPLS, Internet Edge) in deren Marking-/Klassensystem übersetzt werden. Ohne diese End-to-End Sicht endet Marking Preservation als „schönes inneres DSCP“, das operativ keine Wirkung hat.

Outer-DSCP Strategie: Copy, Map oder Rewrite?

Die wichtigste praktische Entscheidung in EVPN/VXLAN QoS ist, wie der Outer DSCP gesetzt wird. Drei Ansätze sind üblich. „Copy“ übernimmt den inneren DSCP 1:1 in den Outer Header. Das ist einfach, kann aber in Multi-Tenant-Umgebungen riskant sein, weil Kunden/Workloads Markings missbrauchen können. „Map“ übersetzt inner DSCP-Werte auf ein Provider-/Fabric-internes Klassenmodell, typischerweise mit einer Allowlist und wenigen Klassen. „Rewrite“ ignoriert inner DSCP komplett und setzt Outer DSCP basierend auf Kontext (VRF/VNI, Port-Profil, Tenant-Policy). In großen Umgebungen ist „Map“ oft der pragmatische Kompromiss: Sie erhalten Semantik, verhindern aber Klassenexplosion und Missmarking.

Trust Boundaries am VTEP: Warum der Tunnel-Endpunkt der neue „Provider Edge“ ist

In EVPN/VXLAN ist der VTEP funktional eine Trust Boundary. Er entscheidet, welche Markings von Endpunkten akzeptiert werden und wie sie im Underlay wirken. Ohne Trust Boundaries kann ein einzelner Tenant seinen kompletten Traffic als EF markieren und damit Premium-Queues im Underlay fluten. Deshalb sollte der VTEP (oder die Leaf-Switch-Rolle, die den VTEP stellt) Markings per Allowlist kontrollieren und pro Klasse Budgets enforce’n – besonders für strikt priorisierte Echtzeitklassen. Für Serverports in einer kontrollierten Umgebung kann Trust näher am Host liegen; für Multi-Tenant- oder Cloud-nahe Fabrics ist Trust am VTEP häufig zwingend.

QoS im Underlay: Queues, Scheduling und AQM in der Fabric

Viele Fabrics haben nur eine begrenzte Anzahl von Hardware-Queues pro Port. Das zwingt zu einem schlanken Klassenmodell. Ein bewährtes Underlay-Design nutzt wenige Klassen: Network Control, Realtime (Voice), Interactive (Video/Business), Best Effort und Bulk/Scavenger. Für Best Effort ist AQM/ECN oft der größte Hebel gegen Bufferbloat, weil TCP-lastige East-West Flows sonst Queues aufblasen und Latenzspitzen erzeugen. Für Echtzeit gilt: kurze Queues und klare Limits sind wichtiger als „keine Drops“. Eine zu große Echtzeitqueue erzeugt Jitter, auch wenn keine Drops sichtbar sind.

Encapsulation-Overhead: MTU, Fragmentierung und warum QoS plötzlich „schlecht“ wird

VXLAN-Encapsulation erhöht die Paketgröße. Wenn die Underlay-MTU nicht passend dimensioniert ist oder wenn PMTUD fehlschlägt, entstehen Fragmentierung oder Drops. Für Echtzeit ist das fatal: einzelne Drops sind sofort hörbar, und Fragmentierung erhöht Jitter und CPU/ASIC-Last. Außerdem erhöht Overhead die effektive Bitrate: Ein Voice- oder Video-Stream belegt auf dem Underlay mehr Bandbreite als „im Overlay“ sichtbar ist. Deshalb müssen Bandbreitenmodelle und Shaper-Profile den Encapsulation-Overhead berücksichtigen, besonders an Border-Uplinks und Inter-DC Links.

ECN und VXLAN: Congestion-Signale über Encapsulation hinweg erhalten

Wenn Sie ECN/AQM nutzen, wird die Frage wichtig, wie Congestion-Markierungen über den Tunnel propagiert werden. In gemischten Umgebungen kann es passieren, dass ECN-Bits oder DSCP-Markierungen beim Encapsulieren/Decapsulieren nicht konsistent übernommen werden. Das führt zu paradoxen Effekten: AQM markiert zwar im Underlay, aber Endpunkte reagieren nicht, weil das Signal nicht ankommt; oder Best Effort wird zu aggressiv gedroppt, obwohl ECN verfügbar wäre. Ein robustes Design definiert daher, welche Bits im Outer Header gesetzt werden, wie ECN propagiert wird und wie Monitoring die Mark-Rate sichtbar macht.

EVPN-spezifische Praxis: Multi-Homing, Anycast Gateway und QoS-Auswirkungen

EVPN bringt Betriebsmechaniken wie Multi-Homing (z. B. All-Active), Anycast Gateway und schnelle Convergence. Diese Features sind hervorragend für Resilienz, können aber QoS beeinflussen: Traffic kann bei Events anders laufen, Hashing kann sich ändern, und dadurch verschieben sich Congestion Domains. Für QoS bedeutet das: Policies müssen auf allen relevanten Pfaden identisch wirken, und Failover muss unter Last getestet werden, nicht nur im Normalbetrieb.

Monitoring: QoS im Overlay sichtbar machen, Underlay als Quelle nutzen

Ein häufiger Fehler ist, QoS nur auf Overlay-Ebene zu beobachten (z. B. End-to-End Latenz zwischen VMs) und Underlay-Queues zu ignorieren. Für EVPN/VXLAN QoS brauchen Sie beide Ebenen: Overlay-KPIs zeigen Nutzerimpact, Underlay-KPIs zeigen Ursache. Besonders wichtig sind queuebezogene Telemetrie-Daten: Queue-Delay, Queue-Drops, Utilization-Perzentile und ECN/WRED-Marks pro Klasse an den kritischen Links (Leaf-Uplinks, Spine→Border, Inter-DC). Zusätzlich sollten Sie DSCP-Verteilungen am VTEP messen (inner vs. outer), um Marking Preservation und Trust Boundaries zu verifizieren.

Typische Failure Patterns und praktische Grenzen

EVPN/VXLAN QoS scheitert in der Praxis selten an einem einzelnen Bug, sondern an wiederkehrenden Mustern: Outer DSCP wird nicht gesetzt, Underlay hat zu wenige Queues für zu viele Klassen, MTU ist zu klein, Trust Boundaries fehlen, oder AQM/ECN wird inkonsistent umgesetzt. Diese Grenzen lassen sich beherrschen, wenn Sie das Design schlank halten und End-to-End konsequent testen.

Blueprint: EVPN/VXLAN QoS sauber planen und ausrollen

Ein praxiserprobtes Vorgehen beginnt mit einem schlanken Klassenmodell, das zur Queue-Anzahl Ihrer Fabric passt. Danach definieren Sie eine Outer-DSCP Strategie (Copy/Map/Rewrite) und setzen Trust Boundaries am VTEP um: Allowlist, Remarking, Class Budgets, insbesondere strikte Limits für Realtime. Anschließend implementieren Sie Underlay-QoS: konsistente Queue-Profile, AQM/ECN für Best Effort, kurze Echtzeitqueues gegen Jitter. Parallel wird MTU/Overhead end-to-end geplant und getestet (inklusive Inter-DC und Border). Abschließend bauen Sie Monitoring auf, das Outer/Inner Marking-Integrität, Queue-Delay/Drops und Event-Korrelation abdeckt. So bleibt Marking Preservation nicht ein theoretisches Ziel, sondern wird im Underlay wirksam – genau dort, wo Congestion tatsächlich entsteht.

Exit mobile version