Häufige QoS Fehlerbilder: Die Top 25 Ursachen für Voice/Video Probleme

Häufige QoS Fehlerbilder sind der Grund, warum Voice- und Video-Probleme in vielen Netzen „sporadisch“ wirken und dennoch immer wieder auftreten. Echtzeitdienste reagieren empfindlich auf drei Faktoren: Latenz (Delay), Jitter (Verzögerungsschwankungen) und Paketverlust (Loss). QoS soll genau diese Faktoren kontrollieren, indem es Traffic korrekt klassifiziert, an Engpässen priorisiert, Congestion in kontrollierte Queues holt (Shaping) und Missmarking sowie Überbuchung verhindert. In der Praxis entstehen Voice/Video Probleme aber nicht nur durch „zu wenig Bandbreite“, sondern durch eine ganze Familie wiederkehrender Ursachen: falsche Trust Boundaries, inkonsistentes DSCP-Mapping, Policies am falschen Interface, unlimitierte Priority-Queues, Policer-Drops in Echtzeit, VPN/SD-WAN-Overlays ohne DSCP Copy, WLAN-Airtime-Sättigung, Security-Processing (DPI/Decryption) als Jitterquelle, Microbursts in Aggregationen oder schlicht fehlende Observability, die Peaks verschleiert. Dieser Artikel sammelt die Top 25 Ursachen für Voice/Video Probleme und ordnet sie in sinnvolle Kategorien ein. Zu jedem Fehlerbild erhalten Sie typische Symptome, den häufigsten Nachweis im Betrieb (welche Counter/Telemetry sinnvoll sind) und die jeweils naheliegende Gegenmaßnahme. Damit wird aus „Voice ist manchmal schlecht“ ein systematisches Troubleshooting- und Standardisierungsprogramm.

Marking, Trust Boundary und Klassifizierung: Wenn Traffic in der falschen Klasse landet

  • DSCP wird am Access nicht trusted (alles wird zu Best Effort): Voice/Video ist nur innerhalb einzelner Segmente gut, am WAN kippt es; Nachweis Default/Unmatched-Anteil steigt, Voice-Klasse hat kaum Hits; Fix Trust Boundary sauber definieren (rollen-/port-/SSID-basiert) und Re-Marking kontrolliert einführen.
  • Marking Abuse (alles als „Voice“ markiert): Prioritätsqueue wird dauerhaft voll, andere Klassen verhungern; Nachweis überproportionale Voice-Class Utilization, Delay in Voice steigt; Fix Whitelist-Markierung, Guardrails und Limits pro Premiumklasse.
  • Falsches DSCP für Audio vs. Video (beides in einer Klasse): Audio leidet, wenn Video/Sharing hochfährt; Nachweis Audio-Jitter steigt bei Video-Peaks; Fix Audio/Voice strikt trennen und separat priorisieren.
  • DSCP→Queue Mapping driftet zwischen Geräten/Vendoren: gleiche Markierung landet je Hop in anderer Queue; Nachweis Classifier-Hits stimmen, aber Drops/Delay in unerwarteter Queue; Fix zentrale Mapping-Matrix (Source of Truth) + Compliance Checks.
  • ACL-/Classifier-Regeln matchen nicht (falsche Ports/Protokolle): neue UCaaS-Versionen nutzen andere Flows, Policy greift nicht; Nachweis Default/Unmatched steigt nach Change; Fix DSCP-basierte Klassifizierung bevorzugen, classifier-Regeln aktualisieren und Regression Tests nutzen.

Policy-Bindung und Richtung: „QoS existiert“, aber greift am falschen Ort

  • QoS am falschen Interface gebunden (z. B. LAN statt WAN-Egress): Voice kippt bei Uplink-Last, obwohl Counters lokal gut aussehen; Nachweis Engpassinterface zeigt keine QoS-Stats oder falsche Policy; Fix Attachment-Standards und Review Gates („Policy am Egress der Congestion Domain“).
  • Falsche Richtung (Ingress statt Egress): Congestion entsteht beim Senden, aber Policy ist nur inbound; Nachweis keine echte Queue-Wirkung trotz Peaks; Fix Egress-Policy mit Shaping/Scheduling am Engpass.
  • QoS nur auf einem Pfad aktiv (asymmetrische Pfade): One-Way-Probleme oder nur eine Richtung schlecht; Nachweis KPIs unterscheiden sich stark zwischen Tx/Rx; Fix Policies symmetrisch und pfadübergreifend ausrollen, Return-Path berücksichtigen.

Shaping, Bufferbloat und Congestion Domains: Wenn Stau dort entsteht, wo Sie ihn nicht steuern

  • Kein Shaping am Internet/WAN-Uplink (Bufferbloat im Modem/Provider): hoher RTT/Jitter ohne sichtbare Drops am Router; Nachweis Queue Delay am Router „zu sauber“, QoE kippt trotzdem; Fix Realrate-Shaping am Egress, Congestion in kontrollierte Queues holen.
  • Shaper auf falscher Rate (zu hoch): Congestion wandert wieder in Provider-Buffer; Nachweis Delay-Spitzen trotz Shaper, Drops upstream; Fix Shaper unter effektive Realrate setzen, Overhead berücksichtigen.
  • Shaper zu niedrig (unnötige Drossel): vermeidbare Qualitätsreduktion, Video-ABR downshifts; Nachweis hoher Shaper-Backlog, permanenter Headroom-Mangel; Fix iterativ kalibrieren, Peak-Fenster messen.
  • Congestion Domain falsch modelliert (Engpass woanders): QoS optimiert Core, Problem sitzt im Access/WLAN/Security; Nachweis Core stabil, aber Edge-KPIs schlecht; Fix Congestion Domains definieren und QoS an Engpässen priorisieren.

Queueing und Scheduling: Priorität falsch dimensioniert oder falsch verteilt

  • Unlimitierte Priority-Queue (Starvation): andere Klassen verhungern, manchmal auch Control; Nachweis dauerhafte Priority-Auslastung, BE/Bulk Drops steigen massiv; Fix LLQ strikt begrenzen (Ceiling) und Voice nur klein dimensionieren.
  • Video in der Voice-LLQ: Meetings „sehen gut aus“, bis Voice kollabiert; Nachweis Voice-Queue Delay steigt bei Video-Peaks; Fix Video/Media separate Klasse, niemals unlimitiert strict priority.
  • Media-Klasse zu klein dimensioniert: Video freezes, obwohl Voice okay bleibt; Nachweis Media Drops/Delay-Spitzen; Fix Media-Limits realistisch setzen, ABR-Profile berücksichtigen.
  • Control/Signal nicht geschützt: Call Setup/ICE-Reconnects scheitern in Lastphasen; Nachweis erhöhte Setup-Zeiten, Reconnects; Fix kleine stabile SIGNAL/CONTROL-Klasse definieren.
  • Bulk nicht eingedämmt: Updates/Backups triggern Jitter-Spikes; Nachweis Peaks korrelieren mit Bulk-Events; Fix BULK-Klasse drosseln, ggf. zeitlich steuern.

Policer, Rate Limits und „harte“ Drops: Wenn Echtzeit ohne Queue-Warnung fällt

  • Policer auf Voice/Media (Never Event): Loss-Spikes ohne Queue-Wachstum; Nachweis Policer Drops, Drop Reason „policed“; Fix Policers auf Echtzeit vermeiden, stattdessen shapen/schedulen.
  • Policer Burst zu klein (Token Bucket zu streng): Microbursts werden sofort gedroppt; Nachweis Drops bei kurzen Peaks; Fix Burst-Toleranz erhöhen oder Policer durch Shaping ersetzen.
  • Provider-Policer am Interconnect trifft Premiumtraffic: internationale/Carrier-Pfade verlieren Qualität; Nachweis Drops am Übergabepunkt, Profile/CIR überschritten; Fix pre-police shapen, Marking diszipliniert halten.

VPN/SD-WAN/Overlay: DSCP geht im Tunnel verloren oder Pfade ändern sich unerwartet

  • Kein DSCP Copy Inner→Outer im IPSec: Underlay sieht Best Effort; Nachweis Outer DSCP = 0; Fix Copy oder Mapping definieren, Trust Boundary am Edge.
  • QoS nur am Tunnelinterface, Engpass am Underlay-Egress: Counters stimmen, QoE kippt; Nachweis Underlay-Queueing unkontrolliert; Fix Shaping/Scheduling am Underlay-Egress.
  • SD-WAN Steering ohne QoS-Semantik: Echtzeit wechselt auf Pfade ohne Reserven; Nachweis Qualitätsprobleme nach Pfadwechsel; Fix class-aware Steering und Guardrails (Jitter/Loss/RTT) pro App/Klasse.

Security, Decryption und DPI: Latenz entsteht im Processing-Pfad

  • DPI/Decryption erzeugt Jitter (Slow Path): QoE kippt, WAN-Queues unauffällig; Nachweis Security-CPU/Crypto-Load, interne Drops/Delay; Fix selective inspection, Headroom erhöhen, Echtzeitpfade optimieren.
  • Firewall setzt DSCP zurück (Marking-Verlust): nach Security-Stack läuft alles in BE; Nachweis DSCP nach Firewall = 0; Fix DSCP Preservation oder deterministisches Re-Marking.

WLAN und Funk: Airtime als Engpass, nicht Bandbreite

  • WMM-Mapping inkonsistent (Voice nicht in WMM Voice): Voice/Video leidet trotz „korrektem DSCP“ im LAN; Nachweis WMM-Kategorien falsch, Airtime/Retry hoch; Fix DSCP→WMM Mapping standardisieren.
  • Airtime-Sättigung und Retries: hohe Jitter-Spitzen, Roaming-Probleme; Nachweis Airtime Utilization, Retry Rates, PHY-Raten; Fix RF-Optimierung, Kanalplanung, Client-Policies, ggf. Band Steering.

Compute/Virtualisierung: vSwitch Queues und CPU Scheduling als „unsichtbare“ QoS-Faktoren

  • VNF/CNF CPU Ready/Throttling: Jitter-Spikes ohne Linkauslastung; Nachweis CPU Ready/Steal, cgroup Throttling; Fix CPU-Reserven, Pinning/NUMA-Alignment, Core Isolation.
  • vSwitch Queueing/Microbursts: Drops/Delay vor dem Router-Queueing; Nachweis vNIC/vSwitch Queue-Indikatoren; Fix Host-QoS/Rate-Limits für Bulk, Datenpfad optimieren.

Monitoring und Betrieb: Wenn Sie das Problem nicht sehen können

  • Nur Linkauslastung statt Queue-Telemetry: Peaks bleiben unsichtbar, „sporadisch“ bleibt „mysteriös“; Nachweis fehlende Queue Delay/Depth/Drop Reasons; Fix High-Signal Panels (Delay 99p, Drops, Reasons) etablieren.
  • Mittelwerte statt Perzentile: 5-Minuten-Averages glätten Microbursts; Nachweis Incident ohne sichtbaren KPI-Peak; Fix Sekundenauflösung oder 95p/99p nutzen.
  • Keine Regression/Canary-Prozesse: QoS driftet nach Changes, Fehler wiederholen sich; Nachweis Incidents korrelieren mit Deployments; Fix Regression Tests, Canary Rollouts, Rollback-Standards.

Top 25 in einer praxisnahen Kurzliste

  • 1) Kein Shaping am Engpass (Bufferbloat im Modem/Provider)
  • 2) Shaper zu hoch (Congestion außerhalb der Kontrolle)
  • 3) Shaper zu niedrig (unnötige Drossel, ABR-Downshifts)
  • 4) QoS am falschen Interface gebunden
  • 5) QoS in falscher Richtung (Ingress statt Egress)
  • 6) Unlimitierte Priority-Queue (Starvation)
  • 7) Video in Voice-LLQ
  • 8) Media-Klasse zu klein dimensioniert
  • 9) Control/Signal nicht geschützt
  • 10) Bulk nicht eingedämmt
  • 11) DSCP nicht trusted (alles BE)
  • 12) Marking Abuse (alles Premium)
  • 13) DSCP→Queue Mapping Drift (Multi-Vendor)
  • 14) Classifier/ACL matcht nicht (neue Apps/Ports)
  • 15) DSCP wird von Firewalls zurückgesetzt
  • 16) Policer auf Voice/Media (Never Event)
  • 17) Burst-Parameter zu klein (Microbursts gedroppt)
  • 18) Provider-Policer am Interconnect trifft Premium
  • 19) IPSec: kein Inner→Outer DSCP Copy/Mapping
  • 20) Underlay-Egress ohne QoS/Shaping in SD-WAN
  • 21) SD-WAN Steering auf Pfade ohne QoS-Reserven
  • 22) DPI/Decryption erzeugt Jitter (Slow Path)
  • 23) WLAN WMM-Mapping falsch
  • 24) WLAN Airtime/Retries hoch (Funk als Engpass)
  • 25) Fehlende Observability/Perzentile/Regression

Wie Sie die Top 25 in Standards übersetzen: Drei schnelle Hebel

  • Engpass-Standard: Congestion Domains definieren und Shaping am Egress verpflichtend machen (inkl. Overhead-Regeln).
  • Guardrail-Standard: Never Events (Policer auf Echtzeit, unlimitierte LLQ, Video in Voice) als Review-Fail festlegen.
  • Observability-Standard: Queue Delay/Depth 99p, Per-Class Drops, Drop Reasons und Default/Unmatched Drift als NOC-Pflichtpanels.

Related Articles