Packet Reordering: Wenn QoS und ECMP plötzlich Voice kaputt machen

Red Snapper

1 month ago

Packet Reordering ist einer dieser Fehler, die in Echtzeitnetzen extrem teuer werden können, obwohl sie in klassischen Monitoring-Dashboards kaum auffallen. Für viele Teams klingt Reordering zunächst wie ein „TCP-Problem“ – denn TCP leidet bei Out-of-Order-Paketen sichtbar (DupACKs, Retransmits, schlechter Throughput). In Voice/Video-Umgebungen ist es jedoch genauso kritisch, nur subtiler: RTP-Pakete kommen nicht in der erwarteten Reihenfolge an, Jitter Buffers müssen plötzlich mehr arbeiten, und was wie „mehr Jitter“ oder „mysteriöser Paketverlust“ aussieht, ist in Wahrheit eine Kombination aus ECMP-Pfadunterschieden, Queueing-Variabilität und QoS-Interaktionen. Besonders tückisch wird es, wenn QoS und ECMP gleichzeitig im Spiel sind: Eine Echtzeitklasse bekommt zwar Priorität, aber wenn Pakete desselben RTP-Flows über unterschiedliche Pfade oder unterschiedliche Queues laufen, kann ein später gesendetes Paket früher ankommen als ein früher gesendetes. Manche Endgeräte behandeln starkes Reordering wie Verlust (weil die Playout-Deadline verpasst wird), andere „sortieren“ bis zu einem gewissen Grad, zahlen dafür aber mit mehr Playout-Delay. Das Ergebnis: Voice klingt abgehackt, einzelne Silben fehlen, Konferenzen wirken „unstabil“ – obwohl weder die durchschnittliche Latenz noch der Gesamtverlust dramatisch sind. Wer Packet Reordering in Provider-, Campus- oder DC-Netzen beherrschen will, muss deshalb verstehen, wie ECMP hashing funktioniert, wie QoS Scheduling Pfadunterschiede verstärken kann, und welche Design- und Betriebsmaßnahmen Reordering zuverlässig reduzieren.

Was Packet Reordering ist und warum es Voice so empfindlich trifft

Packet Reordering bedeutet, dass Pakete eines Flows am Empfänger in einer anderen Reihenfolge ankommen als sie gesendet wurden. Für RTP/Voice ist die Reihenfolge nicht nur „nice to have“, sondern Teil des Zeitmodells: Sequenznummern und Timestamps sind darauf ausgelegt, Pakete in einem kontinuierlichen Takt zu verarbeiten. Kommt ein Paket zu spät oder außerhalb der erwarteten Reihenfolge, passiert häufig Folgendes: Der Jitter Buffer wartet kurz, um zu sortieren, oder er verwirft das verspätete Paket, wenn die Playout-Zeit bereits erreicht ist. Für den Nutzer wirkt das wie Paketverlust, selbst wenn das Paket physisch angekommen ist. Der Unterschied ist wichtig: Wenn Sie Reordering als Loss diagnostizieren, optimieren Sie möglicherweise an der falschen Stelle (mehr Bandbreite, andere Drop-Policies), während die eigentliche Ursache Pfad- und Queue-Divergenz ist.

Out-of-Order ≠ Loss: verspätete Pakete können verworfen werden, weil die Wiedergabezeit vorbei ist.
Jitter Buffer wächst: um zu sortieren, steigt Playout-Delay, Interaktivität leidet.
QoE-Effekt: „Roboterstimme“, Silbenfehler, sporadische Aussetzer – trotz stabiler Durchschnittswerte.

ECMP als Haupttreiber: Wenn „gleichwertige Pfade“ nicht gleich sind

ECMP (Equal-Cost Multi-Path) verteilt Traffic über mehrere gleichwertige Pfade, typischerweise per Hash über Header-Felder (5-Tuple) oder über weitere Felder in Encapsulation-Szenarien. Das Ziel ist Lastverteilung. Der Haken: „Equal cost“ bedeutet nicht „equal delay“. Schon kleine Unterschiede in Hop-Anzahl, Auslastung, Queueing, Linkgeschwindigkeit oder Interconnect-Qualität reichen, um unterschiedliche Laufzeiten zu erzeugen. Wenn Pakete desselben RTP-Flows über unterschiedliche ECMP-Mitglieder laufen, ist Reordering praktisch vorprogrammiert. In vielen Netzen wird das zwar durch flow-basiertes hashing reduziert (ein Flow bleibt auf einem Pfad), aber es gibt reale Situationen, in denen ein „Flow“ aus Sicht des Hashes nicht stabil ist oder in denen Pakete eines Gesprächs eben nicht als ein Flow erscheinen.

Delay-Differenz: wenige Millisekunden Unterschied reichen, um bei 20-ms-Paketisierung hörbare Effekte zu erzeugen.
Pfad-Asymmetrie: Hin- und Rückweg können unterschiedlich reagieren; Reordering kann nur in eine Richtung auftreten.
Hash-Instabilität: wenn Header-Felder variieren, kann derselbe Call über mehrere Pfade verteilt werden.

Wenn QoS Reordering verschärft: Priorität erzeugt unterschiedliche Queueing-Profile

QoS ist dafür da, in Congestion-Situationen Prioritäten durchzusetzen. Aber genau diese Prioritäten können Pfadunterschiede verstärken. Ein typisches Muster: Auf Pfad A ist die Echtzeitqueue fast leer, Pakete laufen mit minimalem Delay. Auf Pfad B gibt es zeitweise Congestion in anderen Klassen, wodurch Scheduling-Entscheidungen, Shaping oder AQM das Timing beeinflussen. Selbst wenn Voice priorisiert wird, kann die Queueing-Architektur zwischen Pfaden unterschiedlich sein (andere Linecard, andere Portgruppe, anderes Queue-Profil). Dann entstehen unterschiedliche Servicezeiten. Wenn das Gespräch über mehrere Pfade verteilt wird, fällt Reordering stärker auf, weil die relative Differenz zwischen „schnellem“ und „langsamem“ Pfad wächst.

Unterschiedliche Queue-Limits: ein Pfad puffert mehr, der andere weniger; Delay-Divergenz wächst.
Shaping-Placement: Shaper auf einem Pfad, nicht auf dem anderen, verändert Abflussrhythmus.
AQM/ECN: Marking/Dropping in Best Effort kann Burstiness und Scheduling beeinflussen und indirekt Delay variieren.

Warum Voice-Calls nicht immer „ein Flow“ sind

Viele Designs gehen davon aus, dass ein VoIP-Call als einzelner UDP-Flow (RTP) per 5-Tuple stabil auf einem ECMP-Pfad bleibt. In der Realität gibt es mehrere Gründe, warum diese Annahme nicht hält. Erstens: Ein Gespräch besteht oft aus mehreren Flows (RTP in beide Richtungen, RTCP, ggf. SRTP, plus SIP-Signalisierung). Zweitens: NAT, SBCs, Media Relays oder Load Balancer können Header-Felder verändern. Drittens: Encapsulation (IPsec/GRE/VXLAN) kann dazu führen, dass das Underlay nur Outer Header hasht, während Inner Header variiert oder umgekehrt. Viertens: Manche Implementierungen nutzen per-packet Load Balancing in bestimmten Situationen (z. B. in LAG/Bundle-Kontexten), oder sie re-hashen bei Events. Dann ist Reordering nicht die Ausnahme, sondern eine direkte Folge.

Mehrere RTP-Streams: Audio, Video, Screen Share – unterschiedliche Ports, unterschiedliche Hashes.
Middleboxes: NAT/SBC/Firewall können Quellports ändern, wodurch Hash-Entscheidungen wechseln.
Overlay-Encapsulation: Outer DSCP/Hashing kann ein „grober“ Flow sein, der viele Sessions bündelt.
Re-hash Events: Link-Flaps, LAG-Mitgliederwechsel oder TE-Reoptimierung können Pfade umlegen.

Reordering vs. Jitter vs. Loss: Diagnose ohne falsche Schlussfolgerungen

Operativ ist die schwierigste Aufgabe, Reordering von klassischem Jitter und echtem Loss zu unterscheiden. Reordering erzeugt häufig ein Bild, das wie „mehr Jitter“ aussieht: der Jitter Buffer wächst, Playout-Delay steigt. Gleichzeitig können verspätete Pakete als „late loss“ gezählt werden. Deshalb brauchen Sie Messgrößen, die Out-of-Order explizit sichtbar machen (RTP sequence gaps, out-of-order counters, reorder depth) und die Pfadvariabilität in kurzen Fenstern zeigen (Queue-Delay p95/p99, Microburst-Drops, ECMP-Mitgliedsauslastung).

RTP-Statistiken: Out-of-order, late packets, jitter, concealment events.
Netztelemetrie: Queue-Delay p95/p99, Drops pro Klasse, AQM/ECN-Mark-Raten.
Pfadtelemetrie: ECMP/LAG member utilization, hash distribution, route change events.

ECMP-Hashing verstehen: Welche Felder zählen wirklich?

Um Reordering zu beheben, müssen Sie wissen, auf welchen Header-Feldern Ihr Netz hasht. Viele Plattformen nutzen standardmäßig 5-Tuple. In Tunneln oder Overlays kann das variieren: Manchmal wird nur der Outer Header gehasht, manchmal kann der Inner Header „geparst“ werden (wenn Hardware es unterstützt), manchmal entscheidet ein Mix aus beiden. Zusätzlich kann DSCP/Traffic Class in manchen Implementierungen in Hashing oder in Load-Balancing-Entscheidungen indirekt einfließen (z. B. wenn QoS-Klassen unterschiedliche Pfade oder Policies nutzen). Ohne diese Klarheit optimieren Sie im Blindflug.

Underlay vs. Overlay: Outer-Hashing kann viele Flows bündeln und dadurch Burstiness und Reordering-Risiko erhöhen.
Flowlet/Adaptive Load Balancing: manche Systeme splitten Traffic in „Flowlets“, was für Voice riskant sein kann.
Fragmentierung: Fragmentierte Pakete können anders gehasht werden und Reordering verstärken.

QoS-Klassen sauber halten: Reordering durch Missmarking vermeiden

Ein unterschätzter Reordering-Treiber ist Missmarking, das zu unterschiedlichen Behandlungspfaden führt. Wenn Teile eines VoIP-Traffics als EF laufen, andere Teile als Best Effort (weil Marking nicht preserved oder am Trust Boundary überschrieben wird), entstehen unterschiedliche Queueing-Verzögerungen – und damit Reordering. Das sieht dann so aus, als würde ECMP „plötzlich Voice kaputt machen“, obwohl die eigentliche Ursache inkonsistentes Marking ist. Gerade in Tunnel- und Interconnect-Szenarien ist deshalb Marking Preservation bzw. kontrolliertes Mapping (inner→outer) entscheidend.

Trust Boundaries: definieren, welche Markings akzeptiert werden und wo normalisiert wird.
DSCP Preservation: sicherstellen, dass Media-Traffic nicht zwischen Klassen „zersplittert“.
Consistent PHB: gleiche Klasse muss über alle Pfade gleich bedient werden, sonst wird Delay-Divergenz groß.

Microbursts und Queue-Divergenz: Der Verstärker-Effekt

Selbst wenn ECMP flow-basiert ist, können Microbursts Reordering-Effekte verstärken, wenn ein Call aus mehreren Flows besteht oder wenn Hashing instabil ist. Microbursts füllen Queues kurzfristig, wodurch ein Pfad kurzfristig „langsamer“ wird als ein anderer. Das ist besonders häufig an Fan-in Punkten: Leaf→Spine Uplinks, Metro-Aggregation, Interconnects, BNG/PE-Uplinks. Wenn Sie dort große Buffers ohne AQM betreiben, entsteht Bufferbloat, und die Delay-Unterschiede zwischen Pfaden wachsen. Dadurch steigt die Reordering-Rate, und Jitter Buffers müssen immer aggressiver arbeiten.

Shaping: glättet Bursts und reduziert kurzfristige Delay-Spitzen.
AQM/ECN: hält Best Effort Queues kurz, senkt p95/p99 Delay und damit Pfad-Divergenz.
Queue-Limits: vermeiden unbounded Delay, der Reordering „aus Versehen“ erzeugt.

Designhebel im Provider-Kontext: Was wirklich hilft

Reordering lässt sich nicht mit einem einzigen Knopf „abschalten“, aber es gibt robuste Muster. Das wichtigste ist: RTP-Flows sollten möglichst nicht per-packet über mehrere Pfade verteilt werden. Wenn möglich, stellen Sie sicher, dass hashing flow-basiert bleibt und stabil ist. Zweitens: Halten Sie QoS-Profile über alle ECMP-Pfade konsistent (gleiche Queues, gleiche Limits, gleiche Shaper-Logik). Drittens: Kontrollieren Sie Congestion Domains so, dass Pfad-Divergenz klein bleibt (Shaping an Übergängen, AQM/ECN in Best Effort). Viertens: Minimieren Sie Pfadwechsel und Re-hash Events für Echtzeit (stabile TE-Policies, konservative Reoptimierung, saubere LAG-Konfiguration).

Flow-Pinning: pro Flow auf einem Pfad bleiben, wo die Plattform das unterstützt.
Symmetrische Pfade: ähnliche Delay-/Queue-Profile auf allen ECMP-Mitgliedern.
Shaping an Engpässen: Queue in den eigenen Einflussbereich holen, statt Reordering durch externe Congestion zu „erben“.
ECMP-Hygiene: Hash-Keys und Encapsulation-Parsing gezielt konfigurieren und dokumentieren.

Designhebel im Enterprise/DC: EVPN/VXLAN, LAGs und Anycast-Gateways

In Data-Center-Fabrics ist Reordering oft ein Zusammenspiel aus VXLAN-Encapsulation, Leaf/Spine ECMP, LAG-Mitgliedern und Microbursts. Wenn Outer Header Hashing viele Flows bündelt, können einzelne ECMP-Mitglieder hot werden, und Delay-Divergenz wächst. Außerdem können EVPN-Events und Multi-Homing Hashing beeinflussen. Für Echtzeit over DC (UC-Services, Call-Server, Media Relays) ist deshalb wichtig: Outer DSCP korrekt setzen, Underlay-Queues konsistent halten, AQM/ECN in Best Effort nutzen, und LAG/ECMP so konfigurieren, dass per-flow Verteilung stabil bleibt. Wo Anwendungen mehrere Streams nutzen (Video, Screen Share), sollte die Netzarchitektur trotzdem verhindern, dass einzelne Streams plötzlich über deutlich unterschiedliche Pfade laufen.

Outer Marking: Underlay muss die Echtzeitklasse sehen; sonst mischt sich Media in Best Effort.
Consistent Underlay QoS: gleiche Queue-Profile auf Leaf-Uplinks und Spine→Border.
Microburst-Toolbox: Shaping (wo möglich), AQM/ECN, kurze Telemetrieintervalle.

Endgeräte und Jitter Buffers: Warum sie Reordering nur begrenzt retten

Ein häufiger Reflex ist, Jitter Buffers am Endgerät zu vergrößern, um Reordering „wegzupuffern“. Das kann kurzfristig Aussetzer reduzieren, erhöht aber die End-to-End Latenz und verschlechtert Interaktivität. Außerdem gibt es Grenzen: Wenn Pfad-Divergenz groß ist oder wenn Pakete regelmäßig nach der Playout-Deadline ankommen, werden sie verworfen – egal wie groß der Buffer ist. Der nachhaltige Weg ist daher: Reordering im Netz reduzieren, damit Endgeräte mit moderaten, adaptiven Buffern stabil arbeiten können. Endgeräte-Tuning ist eher die Feinjustierung, nicht die Kernlösung.

Buffer größer: weniger Aussetzer, aber mehr Gesprächslatenz.
Zu spät bleibt zu spät: Pakete nach der Deadline sind „late loss“.
Netzhebel priorisieren: Pfad- und Queue-Divergenz reduzieren, statt Latenz zu „erkaufen“.

Messbarkeit: Wie Sie Reordering im Betrieb sicher nachweisen

Reordering sichtbar zu machen ist der entscheidende Schritt. Dazu brauchen Sie Messpunkte auf zwei Ebenen: Endgerät/Session und Netz. Auf Session-Ebene sind RTP out-of-order counters, late packets, jitter buffer events und concealment events sehr wertvoll. Auf Netzebene sind ECMP/LAG member utilization, route change logs, Queue-Delay p95/p99 pro Klasse und Drop-/Mark-Raten entscheidend. Besonders hilfreich ist die zeitliche Korrelation: Tritt Reordering gleichzeitig mit ECMP-Mitglied-Hotspots oder mit Failover/maintenance events auf, ist die Ursache meist eindeutig. Wenn Reordering dagegen konstant ist und unabhängig von Events, ist häufig hashing/encapsulation die Kernursache.

Session-KPIs: out-of-order, late loss, jitter buffer size, concealment.
Link-KPIs: Queue-Delay p95/p99, class drops, utilization p95/p99 pro ECMP-Mitglied.
Event-Korrelation: LAG member changes, TE reopt, IGP/BGP events, PoP-Wechsel.

Typische Failure Patterns: Wenn es „plötzlich“ passiert

Viele Teams erleben Reordering als plötzliches Ereignis: „Gestern war Voice stabil, heute kaputt.“ In der Praxis steckt oft ein konkreter Trigger dahinter. Häufige Trigger sind: neue ECMP-Mitglieder (Kapazitätsupgrade), geändertes hashing (Software-Update), neue Tunnel-Policy (Outer Header geändert), AQM/Queue-Profil geändert (Delay-Divergenz verändert), oder Failover/maintenance, die Pfade neu verteilt. Auch Sicherheitsgeräte können Reordering indirekt verstärken, wenn sie Flows auf mehrere Backends verteilen oder wenn sie asymmetrisch routen.

Upgrade/Change: Hash-Algorithmus oder Hash-Keys ändern sich → Flow-Verteilung ändert sich.
New Encapsulation: DSCP/Ports/Outer Header ändern sich → Hashing sieht andere Inputs.
Failover: Backup-Pfad hat andere Queue-Profile → Delay-Divergenz steigt.
Queue-Profil Drift: nicht alle Pfade haben identische QoS-Templates.

Blueprint: Reordering systematisch verhindern, ohne ECMP aufzugeben

Ein praxiserprobtes Vorgehen beginnt mit der Stabilisierung von Flows: Stellen Sie sicher, dass RTP/SRTP-Streams möglichst als stabile 5-Tuple-Flows erscheinen und dass ECMP/LAG flow-basiert arbeitet. Danach prüfen Sie Encapsulation: Outer Header Marking und Hashing müssen so konfiguriert sein, dass Media nicht „zersplittert“ wird. Als Nächstes standardisieren Sie QoS: identische Queue-Profile auf allen gleichartigen Ports, limitierte LLQ für Voice, konsistente Queue-Limits, AQM/ECN in Best Effort zur Latenzstabilisierung. Dann kontrollieren Sie Congestion Domains: Shaping an Übergängen, HQoS bei Multi-Tenant-Links, damit Delay-Spitzen nicht pfadabhängig explodieren. Abschließend etablieren Sie Messbarkeit: RTP out-of-order und late loss, Queue-Delay p95/p99, ECMP-Mitgliedsauslastung und Event-Korrelation. So bleibt ECMP ein Werkzeug für Skalierung und Resilienz, ohne dass es „plötzlich Voice kaputt macht“.