QoS Validation im Lab: Traffic Generatoren, Profiles und Erfolgsmetriken

Red Snapper

3 months ago

QoS Validation im Lab ist der schnellste Weg, um Quality of Service vor dem Rollout belastbar zu beweisen – und nicht erst im Produktivbetrieb zu lernen, dass „Policy greift nicht“. Gerade bei Echtzeitdiensten wie Voice, Video, WebRTC, Multicast-Video oder Contact-Center-Medien ist es entscheidend, nicht nur Konfigurationssyntax zu prüfen, sondern Verhalten unter Last: Klassifiziert das System korrekt? Werden DSCP/CoS-Markierungen end-to-end erhalten? Landet Traffic in den erwarteten Hardware-Queues? Greift Shaping wirklich am Engpass? Und bleiben Jitter, Delay und Loss innerhalb definierter Grenzen, wenn Best Effort und Bulk den Link füllen? Ein Lab bietet dafür den Vorteil reproduzierbarer Bedingungen: Sie kontrollieren Linkraten, Traffic-Mix, Bursts und Messpunkte. Gleichzeitig ist QoS im Lab nur dann aussagekräftig, wenn Sie realistische Traffic-Profile nutzen, die richtigen Erfolgsmetriken definieren und typische Feldfallen (Microbursts, Encapsulation, WLAN-Airtime, Provider-Puffer) zumindest konzeptionell abbilden. Dieser Artikel zeigt praxisnah, wie Sie ein QoS-Lab aufbauen, welche Traffic Generatoren und Profile sich bewährt haben und mit welchen Erfolgsmetriken Sie QoS-Änderungen objektiv abnehmen können.

Warum QoS-Validation im Lab mehr ist als „Counters anschauen“

Viele Teams validieren QoS, indem sie auf einem Gerät „Matched Packets“ sehen und daraus schließen, dass alles funktioniert. Das ist ein Anfang, aber nicht ausreichend. QoS besteht aus mindestens zwei Ebenen: funktional (klassifizieren/markieren/mappen) und verhaltensbasiert (schedulen/shapen/droppen wie geplant). Erst wenn beide Ebenen im Lab reproduzierbar nachgewiesen sind, ist ein Rollout risikoarm. Das Lab ist zudem der Ort, an dem Sie „schlechte Tage“ simulieren können: Congestion, Bursts, Fehlmarkierung, Policer-Fehlkonfigurationen – ohne Nutzerimpact.

Funktional: Classifier trifft, DSCP bleibt erhalten, Queue-Mapping stimmt.
Verhalten: Unter Last bleiben Echtzeitklassen stabil, Best Effort trägt die Congestion.
Reproduzierbar: Gleiche Tests liefern gleiche Ergebnisse – Grundlage für Rezertifizierung.
Vergleichbar: Vorher/Nachher von Policy-Änderungen objektiv messbar.

Lab-Design: Der minimale Aufbau, der echte QoS-Fragen beantwortet

Ein QoS-Lab muss nicht groß sein, aber es muss den Engpass kontrollieren. Das Herzstück ist ein definierter Bottleneck: ein Link mit begrenzter Rate oder ein Shaper, der eine realistische Uplink-Situation nachbildet. Davor und dahinter platzieren Sie Traffic-Generatoren (Source/Sink) und mindestens einen Messpunkt für Telemetry. Für typische Enterprise-Szenarien reicht oft ein Aufbau aus: Traffic-Generator A → DUT (Device under Test) → Bottleneck/Provider-Simulator → DUT → Traffic-Generator B. Je nach Fragestellung ergänzen Sie WLAN (AP + Clients), ein Security-Gateway (Firewall/NAT) oder ein Overlay (IPsec/SD-WAN-Knoten).

DUT: Router/Switch/SD-WAN-Edge, auf dem QoS-Policy getestet wird.
Kontrollierter Engpass: Rate-Limit/Shaper, um Congestion gezielt zu erzeugen.
Traffic-Gen Source/Sink: erzeugt definierte Profile (Voice/Video/BE/Bulk) und misst KPIs.
Telemetry: Queue Depth/Delay, Per-Class Drops, Drop Reasons, Classifier-Hits.

Traffic Generatoren: Welche Optionen es gibt und wofür sie taugen

Für QoS Validation im Lab sind Traffic Generatoren Werkzeuge, nicht Selbstzweck. Entscheidend ist, ob sie (a) präzise Raten und Bursts erzeugen, (b) DSCP/CoS korrekt setzen, (c) mehrere Traffic-Klassen parallel fahren können und (d) Messwerte wie Loss/Jitter/Delay liefern. In der Praxis lassen sich Generatoren in drei Kategorien einteilen: professionelle Testplattformen, softwarebasierte Generatoren und kombinierte Mess-/Probe-Tools.

Professionelle Plattformen: sehr präzise Timing- und Burstkontrolle, hohe Portdichte, detaillierte Metriken; ideal für reproduzierbare Abnahmetests.
Software-Generatoren: flexibel, günstig, gut für CI-nahe Tests; Timing kann OS-/NIC-abhängig sein.
RTC-/RTP-Probe-Tools: realitätsnahe Media-Profile und Jitter-Messung; ideal für Voice-like Validierung.

Wichtiges Auswahlkriterium: Timing-Genauigkeit

QoS-Tests für Echtzeit leben von Paketintervallen (z. B. 20 ms bei Voice-like). Ein Generator, der unter CPU-Last plötzlich jitterige Sendesequenzen produziert, verfälscht die Ergebnisse. Für Lab-Validierung ist es daher sinnvoll, Generatoren so zu wählen oder zu konfigurieren, dass sie stabile Paketisierung liefern, idealerweise mit Hardware-Offload oder deterministischen Sendeplänen.

Profile statt Zufall: Wie Sie realistische Traffic-Mixe definieren

Der größte Fehler im Lab ist ein unrealistisches Profil: „Wir schicken etwas UDP und etwas TCP“ ist keine QoS-Validierung. Stattdessen brauchen Sie definierte Workload-Profile, die Ihren Produktionsmix abbilden: Voice (konstant, klein, jitterkritisch), Video (variabel, bandbreitenintensiver), Screen Sharing (burstig), Signalisierung (klein, aber wichtig) sowie Best Effort und Bulk (dominant, oft TCP). Jedes Profil sollte klar dokumentiert sein: Paketgröße, Paketintervall, DSCP, Zielrate, Burstverhalten und Testdauer.

Voice-like: kleine UDP-Pakete, konstantes Intervall (z. B. 20 ms), DSCP für Voice.
Video-like: höhere Rate, größere Pakete, DSCP für Media/Video, moderate Variabilität.
Sharing-like: burstige Phasen, schnelle Ratenwechsel, eigene Klasse oder kontrollierte Media-Klasse.
Signalisierung: geringe Rate, aber priorisiert; dient zur Validierung von Setup-Stabilität unter Last.
Best Effort/Bulk: TCP-lastig, füllt den Engpass, erzeugt Microburst-ähnliche Effekte.

Die Kernidee jedes QoS-Labtests: Congestion kontrolliert erzeugen

QoS zeigt seinen Wert erst bei Congestion. Daher braucht jedes Lab-Szenario eine Phase, in der Sie den Bottleneck bewusst überfahren: Best Effort/Bulk wird so hoch gefahren, dass ohne QoS Echtzeit leiden würde. Das „Erfolgskriterium“ ist dann nicht „Link voll“, sondern: Trotz Congestion bleiben Voice/Media innerhalb definierter Grenzen, während Best Effort die Einbußen trägt. Das ist der klassische QoS-Proof.

Baseline: nur Voice/Media laufen lassen, um Referenzwerte zu erfassen.
Congestion-Phase: Bulk/BE hochfahren, bis Engpass erreicht ist.
Stabilitätsphase: Congestion über Minuten halten, um Persistenz zu prüfen.
Recovery: Bulk reduzieren, prüfen, ob Queues sich sauber erholen (kein Flapping).

Erfolgsmetriken: Was „bestanden“ im QoS-Lab wirklich heißt

QoS-Validation braucht klare Erfolgsmetriken, sonst bleibt es bei Interpretationen. Für Echtzeit sind das vor allem Jitter, Delay und Loss – ergänzt um Queue-Metriken und klassenspezifische Drops. Zusätzlich sollten Sie „Policy-Wirksamkeit“ messen: Classifier-Hits müssen stimmen, DSCP muss erhalten bleiben, und die erwarteten Queues müssen die erwarteten Verläufe zeigen.

Service-Metriken: RTP Loss (inkl. Burst Loss), Jitter (95p/99p), ggf. One-Way/RTT, MOS-Trends.
QoS-Metriken: Per-Class Drops (Voice/Media), Queue Delay/Depth, Shaper-Backlog, Headroom.
Mechanik-Nachweis: Classifier-Hits pro Klasse, DSCP-Preservation, DSCP->Queue Mapping.

Warum Perzentile besser sind als Mittelwerte

Echtzeitprobleme entstehen in Peaks. Ein durchschnittlicher Jitter kann gut aussehen, obwohl 99p-Jitter regelmäßig hoch ist. Für Lab-Abnahmen sind daher Perzentile (95p/99p) besonders geeignet, weil sie wiederkehrende Peaks erfassen, ohne einzelne Ausreißer überzubewerten.

Messung „im Gerät“: Queue Depth/Delay und Per-Class Drops als Pflichtdaten

Ein sauberes QoS-Lab misst nicht nur am Generator, sondern auch im Device under Test. Denn Sie wollen beweisen, warum es gut oder schlecht ist. Dafür sind Queue Depth und Queue Delay pro Echtzeitklasse essenziell. Sie zeigen, ob Congestion in Ihren kontrollierten Queues stattfindet oder „außerhalb“ (z. B. im vorgeschalteten Puffer). Per-Class Drops zeigen, ob Loss in Voice/Media entsteht oder ob QoS korrekt Best Effort opfert. Drop Reasons liefern den Mechanismus (Tail Drop vs. Policer vs. Buffer Exhaustion).

Queue Delay in Voice: muss auch bei Congestion niedrig bleiben.
Queue Depth Peaks: zeigen Microbursts; wichtig für Echtzeitrisiko.
Per-Class Drops: Voice/Media idealerweise 0, Best Effort kann Dropping tragen.
Drop Reasons: Policer Drops in Echtzeit sind fast immer ein Fehlersignal.

Testszenario 1: „Policy greift“ – Klassifizierung und Mapping verifizieren

Bevor Sie Lasttests fahren, müssen Sie beweisen, dass die Klassifizierung stimmt. Dieses Szenario ist bewusst „sanft“: Sie erzeugen Traffic pro Klasse in moderaten Raten und prüfen, ob er in der richtigen Policy-Klasse matched, ob DSCP erhalten bleibt und ob die Klasse in der erwarteten Queue landet. Dieser Test ist der schnellste Weg, um Mis-Marking, falsche Trust Boundary oder inkonsistentes DSCP->Queue Mapping zu entlarven.

Input: pro Klasse definierter DSCP, definierte Rate.
Check: Classifier-Hits steigen in der passenden Klasse.
Check: DSCP bleibt über DUT/Firewall/Tunnel konsistent.
Check: Queue-Mapping stimmt (Voice in LLQ, Media in Media-Queue).

Testszenario 2: „QoS schützt unter Congestion“ – der Abnahmetest

Hier beweisen Sie die eigentliche Wirkung. Sie fahren Voice/Media auf einer realistischen Rate und erhöhen Best Effort/Bulk so lange, bis der Engpass saturiert. Erwartung: Voice/Media bleiben innerhalb der SLO-Grenzen (Jitter/Loss/Delay), während Best Effort stärkere Delay und ggf. Drops sieht. Wenn Voice/Media kippen, ist QoS entweder falsch dimensioniert (zu kleine Reserven), falsch gebunden (Ingress statt Egress), oder Congestion findet nicht in Ihren Queues statt (fehlendes Shaping).

Erfolg: Voice Loss 0, Jitter stabil, Queue Delay niedrig; Media innerhalb definierter Grenzen.
Erwartet: Best Effort Delay/Drops steigen; Bulk wird sichtbar gedrosselt.
Beweis: Per-Class Drops zeigen Opferklasse, Queue Delay zeigt kontrolliertes Scheduling.

Testszenario 3: „Policer-Fallen“ – harte Drops sichtbar machen

Policers sind eine häufige Root Cause Quelle, wenn Echtzeit sporadisch aussetzt. Im Lab können Sie das gezielt testen: Fahren Sie Voice/Media knapp über den Policer-Wert oder erzeugen Sie kontrollierte Bursts (z. B. kurze Rate-Spitzen), um Token-Bucket-Grenzen zu triggern. Dann prüfen Sie Drop Reasons. Ein sauberer Standard ist: Keine Policers auf Voice, und wenn Policers existieren (z. B. gegen Fehlmarkierung), müssen Burst-Toleranzen so ausgelegt sein, dass echte Medien nicht getroffen werden.

Trigger: kurze Bursts oder leicht erhöhte Rate.
Messung: Policer Drops, Re-Marking, Loss-Spikes ohne Queue-Wachstum.
Bewertung: Echtzeit darf nicht durch Policer beschädigt werden; sonst Design anpassen.

Testszenario 4: „Mis-Marking“ – Trust Boundary und Rewrite testen

Ein wichtiger Labtest ist bewusst „falscher Traffic“: Sie erzeugen Fehlmarkierung, etwa indem Best Effort fälschlich als Voice markiert wird. Ziel ist zu prüfen, ob Ihre Trust Boundary das verhindert. Ein gutes Template normalisiert Markierungen am Access oder am Edge, damit nicht jeder Client die LLQ fluten kann. Im Test soll Fehlmarkierung in Best Effort zurückgesetzt oder in eine begrenzte Klasse verschoben werden.

Input: Best Effort mit Voice-DSCP.
Erwartung: Re-Marking/Policing greift, Echtzeitklasse bleibt geschützt.
Nachweis: Classifier-Hits und Drops/Re-Marks zeigen, dass Guardrails funktionieren.

Microbursts im Lab: Wie Sie Burst-Verhalten realistisch abbilden

Viele QoS-Probleme entstehen nicht durch dauerhafte Überlast, sondern durch Microbursts. Diese entstehen z. B. durch TCP-Window-Effekte, Encapsulation (VXLAN/IPsec), Multicast-Replikation oder gleichzeitige Senderereignisse. Im Lab sollten Sie deshalb nicht nur konstante Raten testen, sondern Burst-Profile: kurze Spitzen in Best Effort, schnelle Ramp-ups, oder mehrere Flows, die synchron starten. Erfolgsmetriken sind hier Peak Queue Depth, Queue Delay Spikes und Drop Reasons wie Buffer Exhaustion.

Burst-Profile: kurze Rate-Spitzen, synchronisierte Startzeiten, variable Paketgrößen.
Messung: Peak Queue Depth, Queue Delay 99p, Buffer-/Shared-Pool-Indikatoren.
Erfolg: Echtzeit bleibt stabil oder degradiert kontrolliert, ohne Voice-Drops.

Overlay- und Security-Realität: DSCP-Copy, NAT und „QoS wirkt nicht“

Ein QoS-Lab ist besonders wertvoll, wenn Sie Overlays und Security-Komponenten einbeziehen, weil dort viele Policies „unsichtbar“ scheitern: DSCP wird beim Tunneling nicht kopiert, Firewalls setzen DSCP zurück, oder NAT/Inspection verändert Pfade. Deshalb sollten Sie mindestens ein Szenario testen, in dem RTP/RTC über den gleichen Tunnel/Firewall-Pfad läuft wie in Produktion. Prüfen Sie explizit, ob DSCP end-to-end erhalten bleibt und ob die Policy am richtigen Egress greift.

DSCP inner->outer: Copy-Strategie im Tunnel überprüfen.
Firewall DSCP preserve: sicherstellen, dass Markierungen nicht neutralisiert werden.
Pfadgleichheit: Tests müssen denselben Exit nutzen wie produktiver Verkehr.

Ergebnisse dokumentieren: Abnahmekriterien, die langfristig tragen

QoS-Validation ist nur dann nachhaltig, wenn Ergebnisse dokumentiert und wiederholbar sind. Ein Labreport sollte nicht aus Screenshots bestehen, sondern aus klaren Testfällen mit Input, erwarteten Ergebnissen, gemessenen KPIs und einem Pass/Fail-Kriterium. Sinnvoll ist eine Matrix: Profile (Voice/Media/BE/Bulk) gegen Szenarien (Baseline, Congestion, Burst, Mis-Marking, Policer). So wird QoS rezertifizierbar, beispielsweise nach Software-Upgrades oder Providerwechseln.

Testfall-Definition: Profilparameter (Rate, Intervall, Paketgröße, DSCP), Dauer, Pfad.
Pass/Fail: SLO-Grenzen für Jitter/Loss/Delay, plus „No Voice Drops“ als harte Regel.
Beweis: Telemetry-Screens/Exports für Queue Delay/Depth, Per-Class Drops, Drop Reasons, Classifier-Hits.
Vergleich: Vorher/Nachher bei Policy-Änderungen oder Template-Versionen.

Pragmatische Erfolgsmetriken: Ein Set, das in den meisten Labs funktioniert

Voice-like: Loss = 0, Jitter 95p/99p innerhalb definierter Grenzen, Queue Delay in Voice niedrig und stabil.
Media-like: Loss sehr niedrig, Jitter/Delay stabil, keine anhaltenden Drops in Media-Queue.
Policy-Wirksamkeit: Classifier-Hits korrekt, DSCP preserved, Queue-Mapping korrekt.
Congestion-Verhalten: Best Effort/Bulk trägt Delay/Drops, Echtzeit bleibt geschützt.
Guardrails: Mis-Marking wird normalisiert, Policer Drops in Echtzeit sind 0.