Site icon bintorosoft.com

QoS-Fehler, die Telcos teuer werden: Top 20 Stolperfallen

QoS-Fehler, die Telcos teuer werden, sind selten spektakuläre „One-Liner“-Bugs. Sie sind meistens stille Design- und Betriebsfehler, die sich erst in Busy Hour, bei Failover oder an Domänenübergängen zeigen – und dann richtig Geld kosten: durch SLA-Pönalen, erhöhte Trouble-Tickets, eskalierende NOC-Aufwände, teure Interconnect-Upgrades im Krisenmodus und vor allem durch Kundenabwanderung, wenn Voice knackt oder Video ruckelt. Das Tückische: Viele Stolperfallen entstehen aus gut gemeinten Maßnahmen. Eine zu große LLQ soll Voice schützen, führt aber bei Fehlmarkierung zu Premium-Inflation. Ein „sicherer“ Policer soll Fairness herstellen, erzeugt aber Drop-Cluster und ruiniert Echtzeit. Ein Routing-Failover soll Verfügbarkeit erhöhen, verursacht jedoch Reordering und Jitterspitzen, weil Backup-Pfade QoS-semantisch nicht gleichwertig sind. Ein Template-Rollout soll standardisieren, driftet aber nach wenigen Monaten, weil lokale Hotfixes nicht zurückgeführt werden. Genau deshalb lohnt sich eine klare Liste der häufigsten Fehlerbilder: Sie hilft, Risiken früh zu erkennen, Abnahmen gezielt zu planen und QoS-Change Management so aufzusetzen, dass Qualität nicht nur im Normalbetrieb, sondern auch in Spitzen und Störungen stabil bleibt. In diesem Artikel finden Sie die Top 20 Stolperfallen aus Telco-Praxis und Carrier-Design – jeweils mit typischer Auswirkung, warum der Fehler so teuer wird und woran Sie ihn im Monitoring schnell erkennen.

Stolperfalle 1: LLQ ohne hartes Limit

Stolperfalle 2: EF/Voice blind vertrauen (fehlende Trust Boundary)

Stolperfalle 3: QoS am falschen Ort oder in der falschen Richtung

Stolperfalle 4: DSCP↔CoS↔MPLS-TC Mapping-Drift

Stolperfalle 5: IPv6 wird vergessen (Dual-Stack QoS-Lücke)

Stolperfalle 6: Tunnel/Overlay verliert Markierungen (Inner/Outer falsch)

Stolperfalle 7: Policer auf Echtzeit (Voice/Video) als Standard

Stolperfalle 8: Burst-Parameter zu klein (Token Bucket „zu eng“)

Stolperfalle 9: Shaping fehlt an rate-limitierten Übergängen (Bufferbloat)

Stolperfalle 10: Queue-Limits „nach Gefühl“ (zu groß oder zu klein)

Stolperfalle 11: WRED/Drop-Strategie falsch eingesetzt

Stolperfalle 12: Premium- und Best-Effort-Budgets nicht plausibilisiert

Stolperfalle 13: ECMP/LAG Hotspots ignorieren (Lastverteilung ungleich)

Stolperfalle 14: Failover-/FRR-Pfade nicht QoS-semantisch gleichwertig

Stolperfalle 15: Reversion/Flapping in Ringnetzen unterschätzt

Stolperfalle 16: Peering/Interconnect als „Best Effort Zone“ ohne Kapazitätsdisziplin

Stolperfalle 17: „QoS wirkt nicht“ – weil Messung falsch ist

Stolperfalle 18: Abnahme nur Off-Peak, keine Busy-Hour- oder Bursttests

Stolperfalle 19: Templates ohne Governance (QoS-Drift durch Hotfixes)

Stolperfalle 20: QoS als Ersatz für Kapazitätsplanung verwenden

So nutzen Sie die Top 20 als sofortiges Audit-Framework

Häufige Fragen aus der Praxis

Welche drei Fehler sind am häufigsten und am teuersten?

Was ist das schnellste Signal, dass QoS gerade Geld verbrennt?

EF/Voice-Drops, steigende Queueing Delay 99.-Perzentile in Voice/Control oder ein plötzlich unplausibler Anstieg des EF-Volumens. Diese drei Signale korrelieren sehr stark mit hörbaren Problemen und steigenden Ticketzahlen.

Wie verhindere ich, dass wir bei jedem QoS-Problem „an den Gewichten drehen“?

Indem Sie Ursachen-orientiert arbeiten: Erst Markierung und Classify-Hits verifizieren, dann Queueing Delay/Drops pro Klasse prüfen, dann Policer/Shaper Events auswerten, und erst danach Gewichte anpassen. Zusätzlich hilft ein standardisierter Abnahme- und Change-Prozess, damit Änderungen nicht im Blindflug passieren.

Exit mobile version