QoS-Drift erkennen: Wenn Konfigurationen still auseinanderlaufen

Red Snapper

3 months ago

QoS-Drift erkennen ist im Telco- und Enterprise-Betrieb eine der wichtigsten Disziplinen, weil QoS selten spektakulär „kaputtgeht“ – es verschlechtert sich leise. Konfigurationen laufen über Monate auseinander: Ein Standort bekommt ein anderes Klassenmapping, eine neue Firewall-Policy normalisiert DSCP anders, ein Router-Template wird manuell „quick gefixt“, ein MPLS-Core führt ein neues TC-Mapping ein, oder ein VPN-Gateway kopiert plötzlich kein inneres DSCP mehr in den Outer-Header. Das Ergebnis ist tückisch: In 90 % der Zeit wirkt alles stabil, doch in Busy Hour knackt Voice, Video pendelt häufiger, Call Setup Times steigen, und das NOC sieht nichts Auffälliges, weil die Durchschnittswerte gut bleiben. Genau das ist QoS-Drift: stille Abweichung von Standards, die erst bei Last, bei Pfadänderungen oder bei Partnerübergängen sichtbar wird. Ein professioneller Ansatz erkennt Drift früh, bevor Kunden es merken – mit Konfigurations-Compliance, Telemetrie-Vergleich, aktiven Probes pro Klasse, Baselines und klaren „Golden Signals“ wie EF-Volumen, Classify-Hits, Queueing-Delay-Perzentile und Remarking-Raten. Dieser Artikel zeigt, wie QoS-Drift entsteht, welche Symptome typisch sind, wie Sie Drift systematisch messen und welche Betriebsprozesse verhindern, dass QoS-Standards still auseinanderlaufen.

Was genau ist QoS-Drift?

QoS-Drift beschreibt die schleichende Abweichung zwischen dem definierten QoS-Standard (Golden Configuration) und dem tatsächlichen Zustand im Netz. Wichtig ist: Drift ist nicht nur „andere Konfiguration“. Drift ist eine Abweichung, die die Service-Semantik verändert – also wie Voice, Video, Signaling und Best Effort behandelt werden.

Konfigurations-Drift: Policies, Class-Maps, Queue-Weights, Shaper-Raten oder Mappingtabellen unterscheiden sich zwischen Geräten/Standorten.
Verhaltens-Drift: Telemetrie zeigt, dass Klassen nicht wie geplant greifen (z. B. EF wird größer, Drops verschieben sich, Queueing Delay steigt).
Domänen-Drift: Übergänge (DSCP↔CoS↔MPLS-TC, Inner↔Outer) sind inkonsistent, obwohl die Edge korrekt wirkt.

In der Praxis treten diese Driftformen häufig gemeinsam auf: Eine kleine Konfigurationsabweichung führt zu messbaren Verhaltensänderungen, die erst in Peaks sichtbar werden.

Warum QoS-Drift besonders gefährlich ist

QoS ist ein Kettenprinzip: Eine einzige Abweichung an einem Engpass reicht, um End-to-End-Qualität zu brechen. Drift ist gefährlich, weil sie selten sofort auffällt:

Durchschnittswerte bleiben gut: QoS-Probleme sind oft Sekundenereignisse (Microbursts, Bufferbloat-Spitzen), die in 5-Minuten-Aggregaten verschwinden.
Fehler sind richtungs- oder klassenabhängig: ein Mapping-Loch betrifft nur IPv6 oder nur den Upstream oder nur Video-AF.
Probleme erscheinen „sporadisch“: weil Drift erst bei bestimmten Lastmustern oder Pfaden triggert.
Schuldzuweisung wird schwieriger: Partnernetze, Interconnects und Cloud-Pfade verschleiern, wo Semantik verloren ging.

Wenn Sie QoS nur reaktiv betreiben, entdecken Sie Drift meist erst durch Beschwerden. Wenn Sie QoS proaktiv betreiben, erkennen Sie Drift über wenige, klare Signale.

Typische Ursachen für QoS-Drift im Betrieb

Drift entsteht selten durch „böse Absicht“, sondern durch normale Betriebsrealität. Häufige Ursachen:

Manuelle Hotfixes: ein Incident führt zu einem schnellen Change auf einem Gerät, der nie zurück in das Template fließt.
Unterschiedliche Plattformen: Router A und Router B haben ähnliche, aber nicht identische QoS-Fähigkeiten; jemand passt Gewichte „lokal“ an.
Software-Upgrades: neue Default-Queues, neue Syntax, andere Zählerlogik oder geändertes Verhalten bei WRED/LLQ.
Neue Services: Teams/Zoom/WebRTC, Telemedizin, neue Video-Workflows – Markierungen verändern sich, EF/AF-Volumen driftet.
Security-Änderungen: Firewalls/VPNs normalisieren DSCP, blocken ICMP (PMTUD), ändern CPU-Path – QoS wirkt plötzlich anders.
Interconnect-Änderungen: neue Peering-Ports, andere NNI-Policies, DSCP-Neutralisierung an Übergängen.
IPv6/Dual-Stack: IPv4-Policies sind sauber, IPv6 Traffic Class wird vergessen – Drift entsteht nur im Dual-Stack-Pfad.

Ein zentrales Muster ist „lokale Optimierung ohne Standardpflege“. Genau dagegen helfen Compliance-Checks und Telemetrie-Baselines.

Wie QoS-Drift aussieht: Frühindikatoren statt Kundentickets

QoS-Drift zeigt sich meist zuerst in Metriken, nicht in harten Ausfällen. Die wichtigsten Frühindikatoren:

EF-/Premium-Volumen steigt dauerhaft: Premium-Inflation durch Fehlmarkierung oder neue Apps.
Classify-Hits verschieben sich: eine Klasse bekommt plötzlich „0 Hits“ oder eine andere plötzlich „viel mehr“.
Remarking-Raten steigen: mehr Traffic wird herabgestuft – Hinweis auf neue Markierungen oder veränderte Trust Boundary.
Queueing-Delay-Perzentile steigen: besonders in Voice/Control-Klassen sind das Warnsignale, auch ohne Drops.
Policer Exceed/Drop steigt: Burst-Parameter oder CIR passen nicht mehr zum realen Trafficprofil.
QoE driftet langsam: MOS sinkt leicht, Video hat mehr Bitrate-Switching, Call Setup Times steigen.

Diese Signale sollten als „Golden Signals“ in jedem QoS-Betriebsdashboard sichtbar sein.

Drift-Typen: Semantik-Drift, Kapazitäts-Drift, Governance-Drift

Für systematisches Vorgehen hilft eine Einordnung in drei Drift-Typen – sie führen zu unterschiedlichen Gegenmaßnahmen.

Semantik-Drift

Merkmal: DSCP/CoS/TC-Mapping ist inkonsistent; Voice/Video landen in falschen Queues.
Indikator: DSCP-Verteilungen ändern sich zwischen Ingress/Egress, Classify-Hits fehlen, QoS-Löcher an Übergängen.
Gegenmaßnahme: Mappingtabellen standardisieren, End-to-End Verifikation pro Domäne, Outer-DSCP bei Tunneln.

Kapazitäts-Drift

Merkmal: Links/Engpässe ändern sich (neue Last, neue Kunden, neue Peering-Profile), QoS-Budgets bleiben gleich.
Indikator: Queueing Delay und Drops steigen in Peaks; Policer-Hits nehmen zu; Busy Hour wird spitzer.
Gegenmaßnahme: Shaping/Queue-Limits neu dimensionieren, Kapazitätsplanung, Microburst-Handling.

Governance-Drift

Merkmal: Trust Boundary und Markierungsregeln werden aufgeweicht oder inkonsistent, Premium-Inflation entsteht.
Indikator: EF-Volumen steigt, Remarking steigt, LLQ wird dauerhaft gefüllt, Voice-Drops treten auf.
Gegenmaßnahme: DSCP-Whitelist, Conditional Trust, Profilierung pro Kunde/Service, harte Grenzen für EF.

QoS-Drift messen: Drei Säulen für belastbare Erkennung

Drift erkennen funktioniert am besten, wenn Sie drei Messsäulen kombinieren. Jede Säule deckt andere Driftarten ab.

Säule 1: Konfigurations-Compliance (Golden Config vs. Ist)

Hier vergleichen Sie die tatsächlichen QoS-Konfigurationen mit einem Referenzstandard:

Class-Maps und Match-Logik: DSCP-Werte, ACLs, NBAR/Anwendungs-Erkennung (falls genutzt).
Policy-Maps: LLQ-Definition, Bandbreitenbudgets, Queue-Limits, WRED-Parameter.
Interface-Attachments: wo ist welche Policy applied (Egress/Ingress)?
Mappingtabellen: DSCP↔CoS, DSCP↔MPLS-TC, Inner↔Outer DSCP.

Konfigurations-Compliance findet Drift auch dann, wenn noch kein Traffic betroffen ist. Das ist der präventive Vorteil.

Säule 2: Telemetrie-Baselines (Verhaltensvergleich statt Syntaxvergleich)

Hier vergleichen Sie nicht die Konfiguration, sondern das Verhalten:

Traffic pro Klasse: EF/AF/Control/BE Volumen und Trends.
Queueing Delay pro Klasse: Perzentile, Peaks, Muster (Sägezahn, Dauerstau).
Drops pro Klasse: besonders EF-Drops als Incident, aber auch Video-Drop-Cluster.
Policer/Shaper Events: Exceed/Drop, Shaping-Queueing, Remarking-Counts.

Telemetrie-Baselines erkennen Drift, die aus Lastveränderung oder Softwareverhalten entsteht, auch wenn die Konfiguration „gleich“ aussieht.

Säule 3: Aktive Probes pro Klasse (End-to-End Verifikation)

Aktive Probes zeigen, ob die Serviceklasse im Pfad wirklich den erwarteten Effekt hat:

EF-Probe: UDP-Probe mit Voice-ähnlichem Timing (z. B. 50 pps) zeigt Delay/Jitter/Loss in der Voiceklasse.
AF-Probe: Video-ähnliche Probe zeigt Throughput-Fenster und Loss-Patterns.
BE-Probe: Vergleichsbasis, ob Best Effort fair bleibt und Bufferbloat kontrolliert ist.
Segment-Probes: Access→Metro, Metro→Core, Core→NNI, um Drift-Ort zu isolieren.

Probes sind besonders wertvoll, um QoS-Löcher an Übergängen zu erkennen, die Telemetrie nur indirekt zeigt.

Drift-Erkennung mit „Golden Signals“: Die wichtigsten Pflichtmetriken

Wenn Sie nur wenige Metriken dauerhaft beobachten wollen, sollten es diese sein – weil sie Drift früh anzeigen und in vielen Netzen verfügbar sind:

EF/Voice-Volumen: Anteil und absolute Werte – Premium-Inflation früh erkennen.
Classify-Hits pro Klasse: zeigt, ob Klassen überhaupt matchen und ob sich Matching verschiebt.
Queueing Delay 95./99. Perzentil: pro Klasse, besonders Voice/Control.
Drops pro Klasse: EF-Drops sind kritisch; Video-Drop-Cluster erklären Freezes.
Remarking-Rate: zeigt Markierungsdrift und Policy-Verletzungen.
Policer Exceed/Drop: zeigt, ob Profile noch zu realen Bursts passen.

Mit diesen sechs Signalen erkennen Sie die meisten Driftarten, ohne in Datenflut zu ertrinken.

Praktische Drift-Szenarien und wie Sie sie entlarven

Drift durch neue UC-App: EF-Volumen steigt, Remarking steigt, Voice-Queueing steigt in Peaks → Trust Boundary und DSCP-Whitelist prüfen, Video aus EF herausziehen.
Drift durch VPN-Upgrade: QoE schlecht nur über Tunnel, EF-Probe zeigt BE-Verhalten → Outer-DSCP-Mapping und MTU/Fragmentierung prüfen.
Drift durch Metro-Mapping: DSCP am PE korrekt, aber CoS/Queueing im Metro falsch → DSCP↔CoS Mapping an Metro-Edges verifizieren.
Drift durch Policer-Änderung: Policer Drops steigen, obwohl Links nicht voll sind → Burst-Parameter/CIR und Shaping vor Policer prüfen.
Drift nur in IPv6: IPv4 stabil, IPv6 Voice knackt → IPv6 Traffic Class Policies und Matching-Parität prüfen.

Diese Szenarien zeigen: Drift ist selten „ein Bug“, sondern oft ein Prozessproblem (Standards, Templates, Governance).

Wie Sie Drift dauerhaft verhindern: Prozesse und technische Leitplanken

Erkennen ist gut, verhindern ist besser. In stabilen QoS-Umgebungen sind diese Leitplanken üblich:

Golden Configs und Templates: QoS als versioniertes Standardartefakt (pro Plattform/Role), nicht als manuelle Kunst.
Change-Gates: QoS-Änderungen dürfen nicht „nebenbei“ passieren; Mappingtabellen und Trust Boundaries sind besonders schützenswert.
Automatisierte Compliance-Checks: regelmäßiger Vergleich Ist vs. Soll, inklusive Interface-Attachments.
Canary-Messpunkte: wenige, strategische Probes/Telemetrie-Knoten als Frühwarnsystem für Drift.
Incident-Postmortems: jede QoS-Störung endet mit der Frage „welcher Drift hat das ermöglicht?“ und einem Standard-Update.
Klassenmodell schlank halten: zu viele Klassen erhöhen Drift-Risiko an Übergängen.

Besonders effektiv ist die Kombination aus Compliance (Konfig) und Golden Signals (Telemetrie). Damit erkennen Sie sowohl stille Syntaxdrift als auch stille Last-/Verhaltensdrift.

Runbook: QoS-Drift in 10 Minuten prüfen

Check 1: EF/Voice-Volumen Trend – unplausibler Anstieg?
Check 2: DSCP-Verteilung Ingress vs. Egress – Markierungsverlust oder Remarking?
Check 3: Classify-Hits – Klassen mit 0 Hits oder verschobene Hit-Ratios?
Check 4: Queueing Delay 95/99 – Peaks in Voice/Control?
Check 5: Drops pro Klasse – insbesondere EF oder Video-Drop-Cluster?
Check 6: Policer Exceed/Drop – Profilverletzungen neu?
Check 7: Shaping Rate/Queueing – Bufferbloat-Indikator?
Check 8: Outer-DSCP in Tunneln – ist QoS im Underlay sichtbar?
Check 9: IPv6 Parität – greift QoS auch im Dual-Stack?
Check 10: EF-Probe (active) – stimmt die End-to-End-Behandlung noch?

Wenn zwei oder mehr dieser Checks auffällig sind, ist Drift sehr wahrscheinlich – auch wenn Kunden noch nicht eskaliert haben.

Typische Fehler bei Drift-Erkennung

Nur Konfig vergleichen: verpasst Lastdrift, Softwareeffekte und veränderte Trafficprofile.
Nur QoE betrachten: sieht Symptome, aber keine Ursachen; Drift-Ort bleibt unklar.
Zu grobe Telemetrie: Sekundenpeaks verschwinden; Microbursts bleiben unsichtbar.
Keine Klassenmessung: Gesamtlinkwerte sind zu unspezifisch, um Drift zu erkennen.
Trust Boundary vernachlässigt: Premium-Inflation wird erst bemerkt, wenn EF dropt.

Häufige Fragen zu QoS-Drift

Woran erkenne ich Drift am schnellsten, ohne Konfigdaten auszuwerten?

An drei Signalen: EF/Voice-Volumen (Premium-Inflation), Classify-Hits (Klassen greifen oder driften) und Queueing-Delay-Perzentile in Voice/Control. Diese drei Indikatoren zeigen Drift oft Wochen vor dem ersten großen Incident.

Warum tritt Drift oft nach Upgrades auf, obwohl niemand QoS „angefasst“ hat?

Weil Softwareversionen das Verhalten von Scheduling, WRED, Zählern oder Default-Mappings ändern können. Außerdem werden bei Upgrades häufig Templates angepasst, aber nicht überall konsistent ausgerollt. Deshalb ist Telemetrie-Baseline-Vergleich nach Upgrades Pflicht.

Wie verhindere ich, dass „Quick Fixes“ QoS dauerhaft auseinanderlaufen lassen?

Indem Sie QoS als standardisiertes, versioniertes Artefakt behandeln: Änderungen müssen in Templates zurückfließen, automatisierte Compliance-Checks müssen Abweichungen melden, und Golden Signals müssen im NOC dauerhaft sichtbar sein. So bleibt QoS konsistent, auch wenn Betrieb und Veränderung Alltag sind.