Packet Loss für Echtzeit: Welche Drop-Raten noch tolerierbar sind

Red Snapper

3 months ago

Packet Loss für Echtzeit ist einer der wichtigsten Qualitätsfaktoren in modernen IP-Netzen – und gleichzeitig einer der am häufigsten missverstandenen. Während klassische Datenanwendungen Verluste oft durch TCP-Wiederholungen kaschieren, wirkt sich Paketverlust bei Voice, Video Conferencing, Live-Streaming oder Industrial-Real-Time sofort aus: hörbare Artefakte, kurze Aussetzer, eingefrorene Bilder oder eine spürbar sinkende Gesprächsqualität. Die Frage „Welche Drop-Raten sind noch tolerierbar?“ lässt sich deshalb nicht mit einem einzigen Prozentwert beantworten. Entscheidend sind Codec und Bitrate, die Art des Verlustes (zufällig vs. bursty), die Paketisierung (z. B. 20 ms Frames), Jitter-Buffer-Strategien, Forward Error Correction (FEC), Packet Loss Concealment (PLC) sowie die Stelle im Netz, an der die Drops entstehen (WLAN, WAN-Edge, Provider-Queue, Policer). Ein professioneller Ansatz betrachtet Packet Loss als Teil eines End-to-End Budgets und definiert tolerierbare Drop-Raten pro Serviceklasse, Zeitfenster und Statistik (Perzentile statt Mittelwert). So wird aus „ein bisschen Verlust ist ok“ ein belastbares Engineering-Kriterium für Echtzeitqualität.

Warum Echtzeit so empfindlich ist: UDP/RTP, keine Retransmits, harte Zeitfenster

Die meisten Echtzeitmedien laufen über UDP und RTP, weil sie geringe Latenz und kontinuierliche Wiedergabe benötigen. Retransmissions wären oft zu spät, um noch nützlich zu sein. Wenn ein RTP-Paket fehlt, muss der Decoder improvisieren: durch PLC (z. B. Wiederholung/Interpolation), durch FEC-Rekonstruktion oder durch das Überspringen von Frames. Das funktioniert nur begrenzt und hängt stark vom Muster des Verlustes ab. 1% zufälliger Verlust kann akzeptabel sein, 1% Verlust in Bursts kann katastrophal wirken.

Zeitkritik: Pakete, die „zu spät“ kommen, sind praktisch verloren – auch ohne Drop im Netz.
Fehlende Retransmits: UDP/RTP kompensiert nicht wie TCP; Qualität sinkt unmittelbar.
Loss Pattern: zufälliger Loss ist oft besser kaschierbar als burstiger Loss.
Decoder-Fähigkeiten: PLC/FEC bestimmen, wie viel Verlust real überbrückt wird.

Drop-Rate ist nicht gleich Drop-Rate: Random Loss vs. Bursty Loss

Für die Frage nach tolerierbaren Drop-Raten ist das Verlustmuster wichtiger als der Durchschnittswert. Random Loss bedeutet, einzelne Pakete gehen sporadisch verloren. Bursty Loss bedeutet, es fehlen mehrere Pakete hintereinander – oft ausgelöst durch Queue-Overflow bei Mikrobursts, WLAN-Retries, PMTUD/Fragmentierung oder aggressive Policer. Bursts schlagen besonders hart zu, weil PLC und FEC ihre Grenzen erreichen und weil ein Jitter-Buffer bei mehreren fehlenden Frames nicht „auffüllen“ kann.

Random Loss: eher „Knacken“ oder leichte Artefakte, oft noch akzeptabel bei niedrigen Raten.
Bursty Loss: hörbare Aussetzer, „Roboterstimme“, Video-Freeze – schon bei kleinen Prozentwerten.
Microbursts: verursachen kurze, hohe Drop-Spitzen, die in Mittelwerten unsichtbar bleiben.
Messimplikation: Perzentile und kurze Zeitfenster sind Pflicht, Mittelwerte sind trügerisch.

Tolerierbare Drop-Raten: Praxiswerte für Voice

Bei Voice hängt die Toleranz stark vom Codec ab. Moderne Codecs mit guter PLC verkraften mehr als ältere, aber auch sie leiden bei Bursts. Als praxistaugliche Engineering-Leitplanken gelten: Sehr niedriger Loss ist das Ziel, und sobald Loss in Echtzeitklassen messbar wird, sollte die Ursache gesucht werden. Für viele VoIP-Setups gilt: Unter 1% random Loss ist häufig noch „okay“, ab 1–3% wird es deutlich hörbar, und bei burstigem Loss kann schon unter 1% problematisch sein. Wichtig ist: Diese Werte sind keine Garantie, sondern Orientierungen, die nur in Kombination mit Jitter und Buffering Sinn ergeben.

0–0,5% (random): meist unauffällig, abhängig von Codec/PLC und Jitter.
0,5–1% (random): leichte Artefakte möglich, oft noch tolerierbar.
1–3% (random): hörbar, Qualitätsabfall, Beschwerden wahrscheinlich.
>3% (random): stark beeinträchtigt, Gesprächsqualität oft nicht mehr akzeptabel.
Bursty Loss: schon <1% kann spürbar sein, wenn mehrere Pakete in Folge fehlen.

Tolerierbare Drop-Raten: Praxiswerte für Video Conferencing

Videokonferenzen sind zweigeteilt: Audio ist meist der limitierende Faktor, Video kann stärker adaptieren (Bitrate/Resolution runter), leidet aber sichtbar bei Loss. Interaktives Video reagiert empfindlich auf Bursts, weil Keyframes fehlen können und Decoder auf neue I-Frames warten müssen. Viele Plattformen nutzen Schutzmechanismen (FEC, NACK/Selective Retransmissions, Jitter-Buffer), aber diese erhöhen Last und Latenz. Praktisch gilt: Sehr niedriger Loss ist anzustreben; ab etwa 1% werden Artefakte häufig sichtbar, und bei burstigem Loss treten Freezes auch bei niedrigeren Raten auf.

0–1% (random): häufig noch akzeptabel, je nach Plattform und FEC/NACK-Strategie.
1–2% (random): sichtbare Artefakte, häufigere Auflösungs-/Bitratensprünge.
>2% (random): Freezes, Ruckeln, deutliche Qualitätsreduktion.
Bursty Loss: Freezes möglich bereits bei niedrigen Durchschnittswerten.

Streaming und Live: Warum Loss hier anders wirkt

Bei Streaming (VOD) puffern Clients typischerweise mehrere Sekunden, dadurch ist Latenz weniger kritisch. Paketverlust wirkt sich primär über Durchsatz und Rebuffering aus: Wenn TCP (bei HLS/DASH) Retransmits fährt, sinkt die nutzbare Rate und der Buffer leert sich. Bei Live-Streaming sind Puffer oft kleiner, und Loss kann schneller zu Rebuffering oder Qualitätsstufenwechseln führen. Tolerierbarkeit hängt daher stark vom Protokoll und vom Pufferkonzept ab – „ein Prozent“ ist hier weniger aussagekräftig als Rebuffering-Rate und Segment-Download-Zeit.

VOD: Loss führt eher zu Durchsatzverlust und ggf. Rebuffering, nicht zu sofortigen Artefakten.
Live: kleinere Puffer, Loss wirkt schneller sichtbar/hörbar.
QoS-Implikation: Streaming braucht eher stabile Bandbreite und geringe Congestion als strikte Priorität.

Wo Drops entstehen: Die Ursache bestimmt die Gegenmaßnahme

Für Echtzeit ist es entscheidend, ob Drops durch Congestion (Queue-Overflow), durch Policing (Profilüberschreitung/Missmarking) oder durch physikalische Fehler (CRC, Funkstörungen) entstehen. Jede Kategorie erfordert andere Maßnahmen. QoS kann Congestion-Drops steuern, aber sie kann keine Funkinterferenzen „wegpriorisieren“. Ein sauberes Troubleshooting beginnt daher mit der Klassifizierung der Drops.

Queue-Drops: entstehen bei Congestion; typisch bei Mikrobursts, Oversubscription, fehlendem Shaping.
Policer-Drops: entstehen bei harten Limits; häufig bei falschen Budgets oder Fehlmarking.
Physical Drops: CRC, Errors, WLAN-Retries; QoS greift hier nur indirekt.
Upstream Provider Drops: schwer sichtbar; Shaping hilft, die Queue „zu sich“ zu holen.

QoS-Mechanik gegen Loss: Queueing, Shaping und Limits richtig setzen

Wenn Echtzeit Loss zeigt, ist die häufigste Ursache Congestion an einem Engpass, der nicht sauber kontrolliert wird. In solchen Fällen hilft eine Kombination aus korrekter Klassifizierung, Low-Latency Scheduling für Voice, gewichteten Queues für Video und vor allem Shaping am WAN-Edge, damit die Queue im eigenen Einflussbereich liegt. Wichtig ist außerdem die Begrenzung von Priority-Queues: Unlimitierte Priorität kann andere Klassen aushungern und indirekt Loss an anderer Stelle verursachen.

LLQ für Voice: minimiert Delay und senkt Loss-Risiko, aber immer mit Obergrenze.
Gewichtete Video-Klasse: verhindert, dass Video alles verdrängt, und reduziert Bursts.
Egress Shaping: reduziert Mikroburst-Drops und verlagert Congestion in kontrollierbare Queues.
Queue-Limits: so setzen, dass Bufferbloat vermieden wird, ohne Bursts sofort zu droppen.

Policing und Remarking: Warum harte Drops in Echtzeit besonders weh tun

Policing ist für Echtzeit heikel, weil Drops sofort hörbar oder sichtbar sind. Gleichzeitig ist Policing in Telco- und großen Enterprise-Netzen wichtig, um Missbrauch und „Noisy Neighbors“ zu verhindern. Der praxistaugliche Weg ist, Echtzeitklassen mit realistischen Budgets zu versehen und Überschreitungen – wenn möglich – zu remarken statt zu droppen. So bleibt die Kernqualität geschützt, und Überschreitungen degradieren in Best Effort, statt das Gespräch zu zerlegen.

Realistische Budgets: Voice-Bandbreite ist klein, aber muss Busy-Hour abdecken.
Remarking statt Drop: Überschreitungen in niedrigere Klasse ummarkieren.
Trust Boundaries: verhindern, dass Best Effort als Voice markiert Premium-Queues flutet.

Messung richtig aufsetzen: Warum Mittelwerte für Loss gefährlich sind

Für Echtzeit ist der Verlust in kurzen Intervallen entscheidend. Ein Durchschnitt von 0,2% über 24 Stunden kann in Wahrheit bedeuten, dass es mehrfach pro Stunde kurze Burst-Phasen mit 5–10% Loss gab – genau dann, wenn Nutzer Beschwerden haben. Deshalb sollten Loss-SLIs als Perzentile oder als „Bad Minutes“ definiert werden: Wie viele 1-Minuten- oder 5-Minuten-Intervalle überschreiten eine Schwelle? Zusätzlich ist eine Trennung pro Klasse zwingend: Loss in Best Effort ist nicht gleich Loss in einer Voice-/Video-Klasse.

Zeitfenster: 1–5 Minuten für operative Sicht, Monat für Reporting/Fehlerbudget.
Statistik: p95/p99 oder „Bad Minutes“ statt Tagesmittelwert.
Scope: pro Standort, pro Link, pro Klasse und Richtung (Ingress/Egress).
Korrelation: Loss mit Queue-Delay, Utilization-Peaks, Pfadwechseln und Changes verbinden.

SLIs/SLOs für tolerierbaren Loss: „Wie viel ist ok?“ sauber definieren

Damit tolerierbare Drop-Raten nicht zur Bauchgefühl-Diskussion werden, sollten sie als SLOs formuliert werden – mit klarer Messstrecke und Statistik. Für Echtzeit ist es sinnvoll, zwei Ebenen zu definieren: ein strenges Ziel für die Echtzeitklasse (z. B. nahezu dropfrei) und ein toleriertes Fehlerbudget für Ausnahmeereignisse (Failover, Wartung). So entsteht ein realistischer Rahmen: Echtzeit sollte im Normalbetrieb praktisch keinen Loss sehen, und wenn Loss auftritt, ist das ein Signal zur Ursachenanalyse.

Voice SLO: „RTP-Loss p95 ≤ 1% pro Standort und Stunde, Burst-Loss-Events minimieren.“
Video SLO: „Loss p95 ≤ 1–2% in Video-Klasse, keine anhaltenden Burst-Phasen.“
Class Health: „Queue-Drops in Voice-Klasse = 0 in 99,9% der 5-Minuten-Intervalle.“
Fehlerbudget: begrenzte Anzahl „Bad Minutes“ pro Monat, um Ausnahmeereignisse zu erfassen.

Typische Failure Patterns bei Packet Loss in Echtzeit

Viele Echtzeitprobleme lassen sich auf wenige Muster zurückführen. Wer diese Muster kennt, kann tolerierbare Drop-Raten nicht nur definieren, sondern auch praktisch sicherstellen – durch korrekte Platzierung von QoS, Shaping und Monitoring.

Mikrobursts in Aggregation: kurze Queue-Overflows; Shaping/HQoS und Queue-Limits prüfen.
Kein Shaping am WAN: Drops passieren beim Provider; Egress Shaping implementieren.
WLAN-Retries: wirkt wie Loss/Jitter; Airtime und WMM-Mapping optimieren.
Overlay ohne DSCP Copy: Underlay behandelt Echtzeit wie Best Effort; Outer-Header-Markings prüfen.
Failover ohne Headroom: Backup-Pfad überlastet; QoS und Kapazität auf Backup testen.
Zu große Priority: Fehlmarking verdrängt andere Klassen; Limits und Trust Boundaries durchsetzen.

Praxis-Blueprint: Verlusttoleranz als Engineering-Disziplin etablieren

Ein belastbarer Umgang mit Packet Loss für Echtzeit beginnt mit einem schlanken Klassenmodell, sauberen Trust Boundaries und einem QoS-Design, das Congestion an den realen Engpässen kontrolliert. Danach folgt die Definition von Loss-SLIs/SLOs mit Perzentilen und kurzen Zeitfenstern, ergänzt um Fehlerbudgets. Parallel müssen Messpunkte so gesetzt werden, dass Drops klassifiziert werden können: Queue-Drops, Policer-Drops, physikalische Fehler und Provider-Drops getrennt. Damit wird die Frage „Welche Drop-Raten sind tolerierbar?“ zu einer nachvollziehbaren Antwort: Im Normalbetrieb sollten Echtzeitklassen praktisch dropfrei laufen; geringe random Loss-Raten können je nach Codec tolerierbar sein; burstiger Loss ist früh kritisch; und jede messbare Abweichung in Echtzeitklassen ist ein klares Signal, Engpässe, Shaping, Queueing oder WLAN/Overlay-Grundlagen zu prüfen.