Service-Level QoS: SLIs/SLOs für Voice & Video sauber definieren

Red Snapper

3 months ago

Service-Level QoS ist der Ansatz, Sprach- und Videodienste nicht nur „technisch zu priorisieren“, sondern ihre Qualität als messbaren Service zu definieren und operativ zu steuern. Genau hier kommen SLIs (Service Level Indicators) und SLOs (Service Level Objectives) ins Spiel: Sie übersetzen Netzparameter wie Latenz, Jitter und Paketverlust in klare Zielwerte, die mit Nutzererlebnis, Betriebsprozessen und – falls nötig – mit vertraglichen SLAs zusammenpassen. In der Praxis scheitern viele QoS-Initiativen nicht an fehlenden Mechanismen wie DSCP oder Queuing, sondern an unklaren Definitionen: Wo wird gemessen? Für welchen Traffic gilt der Wert? Welche Statistik zählt (Mittelwert, 95. Perzentil, Worst Case)? Wie werden kurze Ausreißer, Wartungsfenster, Failover-Events oder externe Domänen berücksichtigt? Wer Service-Level QoS für Voice & Video sauber aufsetzt, schafft damit eine belastbare Grundlage für Planung, Troubleshooting und Kapazitätsentscheidungen – und reduziert Diskussionen wie „im Netz ist alles grün, aber die Meetings ruckeln“ auf überprüfbare Fakten.

SLI, SLO, SLA: Begriffe sauber trennen, bevor man Zahlen festlegt

Bevor Zielwerte definiert werden, muss klar sein, was intern gemessen und was extern zugesagt wird. Ein SLI ist eine messbare Kennzahl, die den Zustand oder die Qualität eines Services beschreibt. Ein SLO ist das Ziel für diesen Indikator, typischerweise innerhalb eines Zeitfensters. Ein SLA ist ein Vertrag, der meist Konsequenzen bei Nichterfüllung enthält. Für Voice & Video ist es sinnvoll, zunächst SLIs und SLOs intern stabil zu etablieren, bevor daraus SLAs abgeleitet werden.

SLI: Messwert, z. B. „One-Way-Delay 95. Perzentil“ oder „RTP-Paketverlust pro Sitzung“.
SLO: Ziel, z. B. „≤ 30 ms Jitter (p95) in der Echtzeitklasse pro Standort und Stunde“.
SLA: Vertragszusage, häufig konservativer und mit klaren Messgrenzen versehen.
Fehlerbudget: erlaubte Abweichung pro Zeitraum, um Realität und Betrieb abbildbar zu machen.

Warum Service-Level QoS mehr ist als „QoS im Netzwerk“

Netzwerk-QoS (Marking, Queuing, Shaping) steuert Verhalten bei Congestion. Service-Level QoS verbindet diese Mechanismen mit messbaren Qualitätszielen und einer Betriebslogik. Das bedeutet: End-to-end Sicht, klare Messstrecken, saubere Traffic-Scopes (welche Klassen/Flows zählen), korrekte Statistikmodelle und eine Korrelation mit Ereignissen wie Pfadwechseln, WLAN-Roaming oder Failover. Besonders bei Voice & Video ist das entscheidend, weil Nutzerqualität häufig durch kurze Peaks (Mikrobursts, kurze WLAN-Störungen) leidet, die im Tagesmittel unsichtbar sind.

End-to-end: vom Client über LAN/WLAN und WAN bis zur Cloud/Plattform.
Domänenbewusstsein: Access, Aggregation, Core, Interconnect getrennt messen und interpretieren.
Messbarkeit: QoS-Queues und Applikationsmetriken zusammenführen.
Operative Steuerung: SLOs müssen in Alarme, Runbooks und Kapazitätsentscheidungen einfließen.

SLIs für Voice: Was tatsächlich die Sprachqualität treibt

Voice ist extrem empfindlich gegenüber Jitter, Paketverlust und übermäßiger Ende-zu-Ende-Latenz. Gleichzeitig ist die Bandbreite pro Call relativ klein, was Voice zu einem idealen Kandidaten für eine strikt priorisierte, aber begrenzte Klasse macht. Für SLIs ist wichtig, dass sie service-relevant sind: „Interface-Utilization“ allein sagt wenig über Sprachqualität aus, während RTP-Loss oder Queue-Delay in der Voice-Queue direkt korrelieren.

RTP-Paketverlust: pro Sitzung/Stream, idealerweise als p95/p99 je Standort.
Jitter: aus RTCP oder synthetischen Messungen, ebenfalls per Perzentil.
One-Way-Delay oder RTT: abhängig von Messmethode; One-Way ist präziser, erfordert Zeit-Synchronität.
Queue-Delay in der Voice-Klasse: zeigt Congestion frühzeitig, bevor Drops auftreten.
Queue-Drops in der Voice-Klasse: harte Indikatoren für sofort hörbare Probleme.

Messmethoden für Voice-SLIs

Passive Telemetrie: Queue-Stats (Drops, Delay), Interface-Stats, Flow-Telemetrie zur Klassennutzung.
Applikationsnahe Metriken: RTCP-Reports, MOS-Schätzwerte (falls verfügbar), Codec-Wechsel.
Active Probing: synthetische RTP-/UDP-Tests zwischen Messpunkten für konstante Vergleichbarkeit.

SLIs für Video: Interaktiv vs. Streaming sauber unterscheiden

Video ist nicht gleich Video. Interaktives Video (Videokonferenzen) benötigt niedrige Latenz und stabilen Jitter, weil Nutzer direkt reagieren. Streaming-Video (unidirektional) toleriert höhere Latenz, solange die Bandbreite stabil und Paketverlust gering ist; Puffer kaschieren kurzfristige Schwankungen. SLIs müssen daher den Videotyp berücksichtigen. Für Videokonferenzen sind Latenzspitzen und Jitter entscheidend, für Streaming eher Throughput-Stabilität, Rebuffering-Events und Loss.

Interaktives Video: Jitter, Loss, Latenz-Perzentile, ggf. Frame-Drops/Resolution Changes (plattformabhängig).
Screen Sharing: Burstiness, Queue-Delay in der Sharing-/Data-Klasse, Loss-Spitzen.
Streaming: Rebuffering-Rate, Segment-Download-Zeit, Throughput-Perzentile, Loss.
Queue-Drops pro Klasse: Video-/Sharing-Klasse separat betrachten, nicht mit Audio vermischen.

SLOs definieren: Statistik, Zeitfenster und Scope sind wichtiger als der Zahlenwert

Ein häufiger Fehler ist, SLOs als einzelne Grenzwerte zu formulieren („Latenz < X ms“), ohne Statistik und Zeitfenster zu definieren. Für Echtzeitdienste sind Perzentile praxistauglich, weil sie kurze Ausreißer abbilden, ohne dass ein einzelner Messpunkt alles „sprengt“. Gleichzeitig muss klar sein, wie lange gemessen wird (z. B. 5 Minuten, 1 Stunde), wie aggregiert wird (pro Standort, pro Link, pro Serviceklasse) und welcher Traffic einbezogen ist (nur RTP in der Voice-Klasse oder alles aus UC?).

Statistik: p95/p99 statt Mittelwert, weil Mittelwert Peaks verschleiert.
Zeitraum: z. B. stündlich bewertet, monatlich berichtet (Fehlerbudget).
Scope: pro Standort/Edge/Link, getrennt nach Klassen (Voice, Video, Signaling).
Gültigkeitsbereich: nur innerhalb der eigenen Domäne oder inklusive Provider/Cloud?

Beispielhafte SLO-Formulierungen (strukturell sauber)

Voice Loss SLO: „RTP-Paketverlust p95 ≤ 1% pro Standort und Stunde für Verkehr in der Voice-Klasse.“
Voice Jitter SLO: „Jitter p95 ≤ 30 ms pro Standort und Stunde für RTP in der Voice-Klasse.“
Video Interaktiv SLO: „Jitter p95 ≤ 50 ms und Loss p95 ≤ 1% für Video-Klasse während Business Hours.“
Queue Health SLO: „Queue-Drops in Voice-Klasse = 0 für 99,9% der 5-Minuten-Intervalle pro Monat.“

Fehlerbudgets: Realistische Ziele, die Betrieb und Veränderung erlauben

Ein Fehlerbudget beschreibt, wie viel „Nicht-Perfektion“ pro Zeitraum akzeptabel ist. Für Voice & Video ist das besonders relevant, weil kurze Ereignisse (Failover, Wartung, WLAN-Störungen) nicht vollständig vermeidbar sind. Fehlerbudgets helfen, SLOs so zu gestalten, dass sie ambitioniert, aber operativ machbar sind. Gleichzeitig schaffen sie eine klare Grundlage für Priorisierung: Wenn das Fehlerbudget aufgebraucht ist, werden riskante Änderungen verschoben, Kapazitäten priorisiert oder Ursachen gezielt beseitigt.

Monatliches Budget: z. B. „maximal X Minuten pro Monat mit Loss > Schwelle“.
Business Hours: getrennte Budgets für Kernzeiten vs. Nachtfenster.
Change Policy: Deployments nur, wenn Budget nicht bereits ausgeschöpft ist.
Incident Trigger: Budgetverbrauch als Auslöser für Root Cause Analysis.

Messstrecke festlegen: Wo beginnt und endet „Servicequalität“?

Der wichtigste Schritt bei Service-Level QoS ist die Definition der Messstrecke. Für Voice & Video gibt es mehrere sinnvolle Perspektiven: Netzdomänen (Edge-to-Edge), Standort-zu-Cloud, oder tatsächlich Endgerät-zu-Endgerät. Je weiter man „nach außen“ misst, desto stärker beeinflussen Faktoren außerhalb der eigenen Kontrolle das Ergebnis. Deshalb werden in professionellen Designs häufig mehrere SLIs kombiniert: Netzwerk-SLIs innerhalb der eigenen Domäne plus applikationsnahe SLIs, die das Nutzererlebnis abbilden.

In-Domain SLI: Messung zwischen Provider Edge / Unternehmensedges (kontrollierbar).
Cloud SLI: Messung bis zu Cloud-Edges/PoPs (teilweise kontrollierbar).
Endpoint SLI: Endgeräte-Sicht (realistisch fürs Erlebnis, aber variabler wegen WLAN/Client).
Multi-SLI Ansatz: kombiniert Netz- und App-Sicht, um Ursachen schneller zu isolieren.

QoS-Klassen mit SLIs verheiraten: „Class Health“ als operatives Konzept

Damit SLOs im Alltag funktionieren, ist es hilfreich, „Class Health“ zu definieren: Jede Traffic-Klasse hat eigene Health-Indikatoren. Für Voice sind das z. B. Queue-Delay und Queue-Drops in der Voice-Queue sowie RTP-Loss/Jitter. Für Video sind es Video-Queue-Drops, Queue-Delay und plattformspezifische Qualitätsindikatoren. Dadurch wird QoS greifbar: Statt abstrakter DSCP-Diskussionen gibt es konkrete Aussagen wie „Voice-Queue zeigt steigenden Delay, bevor RTP-Loss sichtbar wird“.

Voice Class Health: LLQ-Delay, LLQ-Drops, RTP-Loss/Jitter.
Video Class Health: Video-Queue-Delay, Video-Queue-Drops, Adaptionsereignisse (Bitrate/Resolution).
Signaling Health: SIP-Setup-Zeiten, Retransmits/Timeouts, Signaling-Queue-Drops.
Best Effort Health: ECN/WRED-Marks, Tail Drops, Throughput-Perzentile.

SLOs in QoS-Mechanik übersetzen: Von Zielwerten zu Queueing und Shaping

Ein SLO ist nur sinnvoll, wenn es technische Stellhebel gibt, die es beeinflussen. Für Voice & Video sind die wichtigsten Hebel: Engpässe identifizieren, Queueing und Scheduling korrekt konfigurieren, Shaping am WAN-Edge einsetzen und Policing/Remarking an Trust Boundaries nutzen. Besonders wirksam ist Shaping, um die Queue „ins eigene Gerät“ zu holen, damit Priorisierung verlässlich greift. Für Echtzeitklassen gilt zudem: Priorität immer begrenzen, damit Fehlmarkierung nicht das System destabilisiert.

Audio: LLQ mit Limit; Queue-Limits l aten zorientiert; Drops vermeiden.
Video: gewichtete Echtzeitklasse mit Mindestbandbreite; Bursts per Shaping glätten.
Sharing: bevorzugte Datenklasse; Schutz vor Bulk-Verkehr durch Scavenger-Policy.
Trust Boundary: Marking kontrollieren, Premium-Klassen vor Missbrauch schützen.

Failure Patterns: Typische Gründe, warum SLOs „trotz QoS“ reißen

Wenn SLOs verfehlt werden, liegt die Ursache oft nicht an „falschen Zahlen“, sondern an strukturellen Lücken: falscher Messpunkt, falscher Traffic-Scope oder Congestion an einer Stelle ohne QoS. Besonders häufig sind WLAN-Probleme, fehlendes WAN-Shaping, Overlay-Markings, die im Tunnel verschwinden, oder Backup-Pfade ohne passende QoS-Policies. Service-Level QoS macht diese Muster sichtbar, weil SLI-Abweichungen mit konkreten Klassen- und Queue-Metriken korrelieren.

WLAN Airtime: Jitter/Loss steigt, obwohl WAN grün ist; WMM-Mapping und Roaming prüfen.
Keine Queue-Visibility: Drops passieren beim Provider oder in unmanaged Segmenten; Shaping und Messpunkte fehlen.
Overlay ohne DSCP-Copy: Underlay behandelt Echtzeit wie Best Effort; Outer-Header-Markings prüfen.
Failover-Pfad ungetestet: höhere Latenz, weniger Bandbreite, andere Queue-Profile; SLOs reißen bei Umschaltung.
Zu großzügige Priority: Video oder falsch markierter Traffic verdrängt andere Klassen; LLQ-Limits prüfen.

Reporting und Alarmierung: SLOs so operationalisieren, dass sie helfen

Damit SLIs/SLOs mehr sind als Monatsberichte, müssen sie in den Betrieb integriert werden: Dashboards pro Standort und Klasse, Alarme auf SLO-Verletzungen und Frühindikatoren, sowie klare Runbooks. Ein bewährter Ansatz ist die Kombination aus „Symptom“-Alarmen (z. B. RTP-Loss > Schwelle) und „Ursachen“-Alarmen (z. B. Voice-Queue-Delay steigt). So reagiert das Team nicht erst, wenn Nutzer schon massiv betroffen sind.

Early Warning: Queue-Delay und steigende Queue-Depth als Vorboten von Loss.
SLO Breach Alerts: Verletzungen nach definierter Statistik (z. B. p95 in 5-Minutenfenstern).
Kontext: Link-/Pfad-Events, Changes und Wartungen automatisch mit einblenden.
Runbooks: standardisierte Prüfpfade (WLAN, WAN-Shaping, Overlay, Queue-Drops, Pfadwechsel).

Praxisrahmen: In wenigen Regeln zu sauberen Voice-/Video-SLOs

Service-Level QoS gelingt am zuverlässigsten, wenn man das Problem in klare, wiederholbare Regeln fasst: Erstens SLIs wählen, die das Nutzererlebnis abbilden (RTP-Loss/Jitter, Queue-Delay). Zweitens SLOs mit Statistik, Zeitfenster und Scope formulieren, nicht als vage Grenzwerte. Drittens Messstrecken realistisch abgrenzen und Multi-SLI nutzen, um Verantwortlichkeiten zu klären. Viertens QoS-Mechanik so platzieren, dass Congestion kontrollierbar ist (Shaping am WAN-Edge, HQoS im Access). Fünftens Fehlerbudgets nutzen, um Betrieb und Veränderung zu balancieren. So werden Voice- und Video-Qualität nicht „gefühlt“, sondern als Service messbar – und damit planbar, betreibbar und kontinuierlich verbesserbar.