SLAs für Voice/Video: Messpunkte, Methoden und Reporting Design

Red Snapper

1 month ago

SLAs für Voice/Video sind in modernen Netzwerken mehr als ein „Verfügbarkeitswert“ in Prozent. Wer Sprach- und Videodienste als geschäftskritische Services betreibt – ob VoIP, UCaaS, Contact Center, WebRTC oder IPTV/AV-over-IP – braucht Service Level Agreements, die Qualität messbar abbilden: Latenz, Jitter, Paketverlust, Aussetzer, Call-Setup-Zeiten und die Stabilität unter Last. Genau hier scheitern viele SLA-Ansätze: Sie messen nur, ob ein Link „up“ ist, nicht ob er Echtzeitverkehr zuverlässig transportiert. Ein SLA für Voice/Video muss deshalb drei Dinge zusammenbringen: passende Messpunkte (wo wird gemessen?), eine robuste Methode (wie wird gemessen – aktiv, passiv oder kombiniert?) und ein Reporting Design, das technische Details in verständliche, auditierbare Kennzahlen übersetzt. Dieser Artikel zeigt, wie Sie SLAs für Voice/Video praxisnah definieren, Messarchitekturen aufbauen und Reports so gestalten, dass sie im Provider-Dialog, im Management-Reporting und im technischen Betrieb gleichermaßen funktionieren.

Warum klassische Netz-SLAs für Echtzeitdienste oft nicht reichen

Traditionelle SLAs fokussieren auf Verfügbarkeit und gelegentlich auf Round-Trip-Latenz. Für Voice und Video ist das zu kurz gegriffen. Ein Link kann 99,9 % verfügbar sein und trotzdem regelmäßig kurze Congestion-Spitzen haben, die Calls stören oder Video einfrieren lassen. Ebenso sind viele Probleme asymmetrisch: Der Upstream ist knapp, der Downstream nicht – oder WLAN-Retries erhöhen Jitter ohne sichtbare Interface-Drops. Ein gutes SLA muss deshalb „Quality of Experience“ (QoE) oder zumindest Quality of Service (QoS) in messbare Serviceziele übersetzen.

Verfügbarkeit allein: sagt nichts über Jitter, Loss oder Media-Stabilität aus.
Durchschnittswerte: verdecken Microbursts; Echtzeit leidet an Peaks, nicht am Tagesmittel.
Asymmetrie: RTT kann gut sein, obwohl eine Richtung stark gestört ist.
Pfadvielfalt: SD-WAN, Internet-Breakout und Cloud-Edges machen „den einen Pfad“ selten.

Grundbegriffe: SLA, SLO und die richtige Sprache für Stakeholder

Im Alltag lohnt es sich, SLA und SLO sauber zu trennen. Ein SLA ist das vertragliche oder organisatorisch bindende Leistungsversprechen (intern oder extern). Ein SLO (Service Level Objective) ist ein konkretes, messbares Ziel innerhalb dieses Versprechens (z. B. „95. Perzentil Jitter < X ms“). Ergänzend sind SLIs (Service Level Indicators) die tatsächlichen Messwerte. Diese Begriffe helfen, technische Messgrößen sauber in ein Reporting zu gießen, das auditierbar und vergleichbar ist.

SLI: gemessene Kennzahl (Jitter, Loss, OWD, MOS, Bad-Call-Rate).
SLO: Zielwert/Schwelle (z. B. Jitter 95p < Y ms).
SLA: bindende Vereinbarung, inklusive Messmethode, Zeitfenster, Ausnahmen, Konsequenzen.

Messpunkte: Wo Sie messen müssen, damit ein SLA belastbar ist

Der wichtigste Designschritt ist die Auswahl der Messpunkte. Für Voice/Video ist es selten sinnvoll, nur im Core zu messen. Die kritischen Engpässe liegen typischerweise am Rand: WAN-/Internet-Uplinks, SD-WAN-Edges, Provider-Access, WLAN und Übergänge in Cloud-Services. Gute SLA-Designs definieren Messdomänen: „unter unserer Kontrolle“ (LAN/WLAN/Edge), „Transport“ (Provider/Underlay) und „Service“ (UCaaS/CCaaS/Media-Plattform). Je nachdem, wem Sie welche Verantwortung zuweisen, wählen Sie Messpunkte so, dass Sie Probleme auch zuordnen können.

Standort-Edge: Messung direkt am WAN-/Internet-Ausgang ist fast immer Pflicht.
Hub/DC: bei zentralen SBCs, Media-Relays oder internen UC-Komponenten.
Cloud-Edge/Region: bei UCaaS/CCaaS; wichtig für regionale Unterschiede und Peering.
WLAN-nahe Messpunkte: wenn WLAN Teil des SLA ist (VoWLAN, Meetingräume, mobile Clients).
Provider-Übergabe: wenn verfügbar, z. B. NTE/CPE-Interface oder Ethernet-UNI.

Messpunkt-Strategie „vor“ und „nach“ dem Engpass

Wenn Sie Verantwortlichkeiten beweisen wollen, platzieren Sie Messpunkte so, dass ein Engpass isolierbar wird: einmal vor dem Provider-Transport (z. B. direkt am Customer Edge) und einmal dahinter (z. B. im Hub/DC oder an einer Cloud-Region). Verschlechtert sich nur der Wert „nach dem Übergang“, liegt die Ursache eher im Provider-/Internet-Segment. Verschlechtert sich bereits „vorher“, ist es eher LAN/WLAN oder lokale Congestion.

Methoden: Active Probing, Passive Monitoring und Hybrid-Ansätze

Für SLAs für Voice/Video gibt es drei etablierte Messmethoden. Active Probing (synthetische RTP-Tests) liefert kontrollierte, vergleichbare Zeitreihen und ist ideal, um Pfade unabhängig von Nutzeraktivität zu überwachen. Passive Voice Monitoring nutzt RTP/RTCP-Stats realer Calls und bildet echte Nutzererfahrung ab. Hybrid-Ansätze kombinieren beides: Always-on Probes als Frühwarnsystem und passive Daten zur Bestätigung und Ursachenanalyse. Welche Methode Sie wählen, hängt von Call-Volumen, Netztopologie und SLA-Zielen ab.

Active Probing: reproduzierbar, proaktiv, gut für SLA-Nachweise und Pfadvergleiche.
Passive Monitoring: realitätsnah, QoE-nah, ideal bei hohem Call-/Meeting-Volumen.
Hybrid: Probes für Kontinuität + passive Daten für Ursachen und Nutzerperspektive.

Welche Kennzahlen in ein Voice-SLA gehören

Voice ist besonders sensitiv für Jitter und Loss. Für SLA-Ziele sollten Sie Kennzahlen wählen, die eindeutig messbar und nicht zu interpretationsabhängig sind. Ein MOS kann hilfreich sein, sollte aber als abgeleiteter Indikator immer durch die Treiberwerte (Loss/Jitter/Delay) flankiert werden. Außerdem ist Richtung wichtig: Viele Probleme sind asymmetrisch. Ein SLA, das nur RTT misst, kann echte Störungen übersehen.

One-Way-Delay (oder RTT): ideal OWD, alternativ RTT mit klarer Interpretation.
Jitter: als Perzentil (95p/99p) statt nur Mittelwert.
Paketverlust: Prozentwert plus optional Burst-Loss-Indikator.
Bad-Call-Rate: Anteil Calls unter definierter Qualitätsgrenze (z. B. MOS oder Loss/Jitter-Schwellen).
Setup-/Connect-Zeit: optional für SIP/UCaaS, um Signalisierungsqualität abzubilden.

Welche Kennzahlen in ein Video-SLA gehören

Video verhält sich anders als Voice: Bandbreite ist wichtiger, und Plattformen passen Bitrate oft adaptiv an. Ein SLA sollte daher neben Jitter/Loss auch Stabilitätsindikatoren berücksichtigen: Freezes, Auflösungswechsel oder „Quality Limitation“ (bei WebRTC/RTC-Plattformen). Weil Video-Workloads sehr variabel sind, ist ein szenariobasierter Ansatz sinnvoll: getrennte SLOs für interaktives Video (Meetings) und Screen Sharing, da Sharing stark burstig sein kann.

Loss/Jitter: weiterhin relevant, aber oft toleranter als Voice – bis zu einem Kipppunkt.
Freeze-/Stall-Rate: Anteil Sessions mit Freezes oder längeren Render-Aussetzern.
Resolution/Bitrate-Stabilität: Häufigkeit von Downshifts als Hinweis auf Congestion.
Available Outgoing Bitrate: besonders in WebRTC/RTC-Telemetrie wertvoll.
Packet Reordering: selten, aber in Overlays/Path-Changes relevant.

Messfenster und Statistik: Warum Perzentile SLA-tauglicher sind als Mittelwerte

Echtzeitqualität wird von „schlechten Momenten“ geprägt. Deshalb sind Mittelwerte oft irreführend. SLA-Designs nutzen typischerweise Perzentile, um eine Balance zu finden: Sie ignorieren einzelne Ausreißer, aber erfassen wiederkehrende Probleme. Für Voice/Video sind 95. oder 99. Perzentile gängig. Zusätzlich sollten Sie definieren, wie Messwerte aggregiert werden: pro 5 Minuten, pro Stunde, pro Tag – und ob Wartungsfenster ausgenommen sind.

95p/99p: zeigt systematische Peaks, ohne jedes Einzelereignis zu überbewerten.
Max-Wert: hilfreich für Incident-Analyse, aber selten als SLA-Kriterium sinnvoll.
Rolling Windows: stabiler als starre Kalendertage, wenn Lastprofile schwanken.
Ausnahmen: geplante Wartung klar definieren, sonst werden Reports politisch.

Messfrequenz und Auflösung: Sekunden schlagen Minuten

Für Echtzeitdienste passieren relevante Ereignisse in Sekunden. Ein SLA, das nur alle fünf Minuten misst, verpasst Microbursts, kurze Provider-Glitches oder WLAN-Roaming-Probleme. Daher sollte die Messfrequenz für Voice/Video höher sein, insbesondere an kritischen Messpunkten. Active Probing kann kontinuierlich mit geringer Last laufen, passive Daten liefern bei hoher Nutzung ohnehin viele Messpunkte. Wichtig ist, die Auflösung so zu wählen, dass Sie Störungen nicht glätten.

Active Probing: kurze, regelmäßige Tests oder kontinuierliche Low-Rate-Streams.
Passive Daten: Call-/Session-basierte Messungen; bei wenig Volumen ergänzen durch Probes.
Engpassfokus: hohe Auflösung dort, wo Congestion wahrscheinlich ist (Uplink, Edge, WLAN).

QoS-Validierung als Teil des SLA: Messen, ob Priorisierung wirkt

Ein Voice/Video-SLA ist besonders stark, wenn es nicht nur End-to-End-KPIs berichtet, sondern auch nachweist, dass QoS-Mechanismen greifen. Das gelingt über Netzwerk-Telemetry: Per-Class Drops, Queue Depth/Delay, Shaper-Auslastung und Drop Reasons. So können Sie belegen, ob Echtzeitklassen geschützt sind und ob Störungen durch Congestion, Policing oder Plattformlimits entstehen. In SLA-Reports kann das als „Supporting Evidence“ geführt werden, während die primären SLOs auf Jitter/Loss/Delay basieren.

Per-Class Drops: beweisen, welche Klasse betroffen war und ob Echtzeitpakete verloren gingen.
Queue Depth/Delay: Frühindikator für Bufferbloat und Echtzeitrisiko, auch ohne Drops.
Drop Reasons: zeigen „warum“ (Tail Drop, Policer, WRED, Buffer Exhaustion).
Classifier-Hits: belegen, dass Voice/Video tatsächlich in der richtigen Klasse läuft.

Reporting Design: Von Rohdaten zu verständlichen SLA-Berichten

Ein gutes Reporting Design beantwortet drei Fragen: Haben wir das SLA eingehalten? Wenn nein, wann und wo nicht? Und was war die wahrscheinlichste Ursache? Dafür braucht es eine klare Struktur: Executive Summary (SLA-Status), Trends (Zeitreihen), Segmentierung (Standort, Provider, Netzwerktyp) und Drilldown (Einzelereignisse mit Kontext). Für Stakeholder ist es hilfreich, SLA-Konformität als „Quality Availability“ darzustellen: Anteil der Zeit, in der alle relevanten KPIs innerhalb der Grenzen lagen. Ergänzend sollten Sie die wichtigsten Perzentile und die Bad-Call-/Bad-Meeting-Rate zeigen.

Executive Summary: SLA erfüllt/ nicht erfüllt, Top-Ausreißer, betroffene Standorte.
Quality Availability: Prozentanteil der Zeit innerhalb der Qualitätsgrenzen.
Perzentile: 95p/99p für Jitter/Loss/Delay pro Pfad/Standort.
Bad-Event-Rate: Anteil schlechter Calls/Meetings, segmentiert nach Netzwerktyp (LAN/WLAN/VPN).
Drilldown: Zeitfenster, Messpunkt, Richtung, Pfad, korrelierte QoS-Telemetry.

Segmentierung: Ohne Kontext sind SLA-Zahlen politisch

Voice/Video-Qualität hängt stark vom Kontext ab: WLAN vs. LAN, Standort A vs. Standort B, Internet-Provider X vs. Y, Cloud-Regionen, Homeoffice via VPN. Wenn Sie diese Dimensionen nicht segmentieren, wirken SLA-Zahlen willkürlich. Ein gutes Reporting erlaubt daher Filter und Gruppierungen, damit Verantwortlichkeiten sauber zuordenbar bleiben.

Beweisfähigkeit: Auditierbarkeit und Reproduzierbarkeit sicherstellen

SLAs sind nur dann belastbar, wenn Messmethodik und Datenhaltung nachvollziehbar sind. Das betrifft Zeitstempel (NTP), Definitionen (wie wird Jitter berechnet?), Messpunkte (wo genau steht die Probe?), sowie Datenintegrität (Logs, Retention, Versionierung von Änderungen). Gerade im Provider-Dialog ist es hilfreich, eine standardisierte Messbeschreibung zu haben: Testprofile, DSCP-Markierungen, Messfrequenz, Aggregationsregeln und Ausnahmen. So vermeiden Sie Diskussionen über „falsche Messung“ und können sich auf die Ergebnisse konzentrieren.

Dokumentation: Messpunkte, Profile, Berechnungen, Zeitfenster, Ausnahmen.
Zeitsynchronisation: konsistente Zeitbasis für Korrelation und One-Way-Analysen.
Retention: genügend Historie, um Trends und Vorher-Nachher-Vergleiche nach Changes zu zeigen.
Change-Tracking: QoS-/Routing-/SD-WAN-Änderungen im Report markiert, um Kausalität zu prüfen.

Typische SLA-Fallstricke und wie Sie sie vermeiden

Viele SLA-Projekte scheitern nicht an der Technik, sondern an unklaren Definitionen. Ein häufiger Fehler ist, zu viele Kennzahlen aufzunehmen, ohne klare Priorität. Ein anderer ist, Messpunkte so zu wählen, dass sie den kritischen Pfad nicht abdecken (z. B. Messung im Core statt am Uplink). Auch „zu schöne“ Messungen sind problematisch: Probes laufen über einen bevorzugten Pfad, während echte Meetings über einen anderen Internet-Breakout gehen. Schließlich ist die Überaggregation gefährlich: Tagesmittelwerte sehen gut aus, obwohl Nutzer zu Stoßzeiten leiden. Ein robustes SLA vermeidet diese Fallen durch klare SLOs, passende Messpunkte und perzentilbasiertes Reporting.

Zu grobe Messung: Minutenmittelwerte statt Sekunden-/Perzentilbetrachtung.
Falsche Messpunkte: Core statt Edge, fehlende WLAN-/Homeoffice-Abdeckung trotz SLA-Anspruch.
Unklare Verantwortung: keine Segmentierung nach Provider/Region/Netztyp.
Fehlende QoS-Validierung: SLA sagt „schlecht“, aber erklärt nicht „warum“; Telemetry ergänzen.
Zu viele KPIs: wenige, starke SLOs sind besser als ein unlesbares Kennzahlenset.

Pragmatische Blaupause: Ein SLA-Set, das in der Praxis funktioniert

Ein bewährter Ansatz ist ein zweistufiges SLA-Set: (1) End-to-End-Qualitäts-SLOs, die direkt Voice/Video abbilden, und (2) unterstützende Netzwerk-SLOs, die zeigen, ob QoS-Mechanismen stabil sind. Für Voice eignen sich Jitter/Loss/Delay-Perzentile plus Bad-Call-Rate. Für Video zusätzlich Freeze-/Downshift-Indikatoren oder verfügbare Bitrate. Ergänzend Per-Class Drops und Queue Delay an kritischen Engpässen als Nachweis, dass Priorisierung wirkt. Mit dieser Struktur erhalten Sie ein SLA, das sowohl technisch belastbar als auch reportingtauglich ist.

Voice SLOs: Jitter 95p, Loss 95p, Delay/RTT 95p, Bad-Call-Rate pro Standort.
Video SLOs: Loss/Jitter-Perzentile plus Freeze-/Downshift-Rate oder Bitrate-Stabilität.
Supporting SLOs: Queue Delay/Depth und Per-Class Drops in Voice/Media-Klassen an Uplinks.
Reporting: Quality Availability, Perzentile, Segmentierung nach LAN/WLAN/VPN/Provider/Region.