Machine Learning für QoS: Anomalien und Qualität automatisch erkennen

Red Snapper

1 month ago

Machine Learning für QoS wird 2026 in vielen Telco- und Enterprise-Netzen vom „Nice-to-have“ zum praktischen Werkzeug, weil klassische Schwellenwerte immer schlechter zur Realität passen. Echtzeitdienste wie Voice, Video und interaktive Anwendungen leiden nicht an Durchschnittswerten, sondern an Spitzen: kurzzeitige Jitter-Ausreißer, Paketverlust-Cluster, Mikrobursts, Queueing-Delay-Spitzen oder Pfadwechsel, die nur Sekunden dauern – und trotzdem zu hörbaren Aussetzern oder Video-Freezes führen. Gleichzeitig werden Netze heterogener: DiffServ-Klassen mit DSCP-Markierungen laufen über IP/MPLS-Core, Segment Routing, EVPN/VXLAN, SD-WAN/SASE-Pfade und Telco-Clouds mit CNFs. In so einer Umgebung ist „QoS-Monitoring“ nicht mehr nur das Abfragen von Interface-Auslastung, sondern eine Datenaufgabe: Telemetrie pro Klasse, Perzentile (95/99), Events (Shaper/Policer), Service-KPIs (MOS, R-Faktor, RTP-Jitter/Loss) und Kontext (Busy Hour, Failover, Maintenance). Genau hier spielt Machine Learning für QoS seine Stärke aus: Anomalien werden nicht nur nach festen Grenzen erkannt, sondern relativ zu normalem Verhalten, Tageszeiten, Kundensegmenten und Pfadprofilen. Zusätzlich kann ML helfen, Qualität automatisch zu bewerten (QoE/QoS-Score), Drift in QoS-Policies aufzuspüren und die wahrscheinlichste Ursache einzugrenzen. Der wirtschaftliche Nutzen ist klar: weniger Tickets, schnelleres Troubleshooting, weniger „mystische“ Incidents und ein Betrieb, der näher an intentbasierte Servicequalität heranrückt. Dieser Artikel zeigt, wie Sie Anomalien und Qualität automatisch erkennen – von Datenquellen und Feature-Engineering über Modellklassen bis zur produktiven Umsetzung im NOC.

Was bedeutet „Anomalie“ bei QoS wirklich?

In der Praxis ist eine QoS-Anomalie selten „Link down“. Häufig sind es subtile Abweichungen, die nur bestimmte Klassen oder Flows treffen. Deshalb ist es hilfreich, Anomalien in Kategorien zu denken:

Performance-Anomalie: One-Way Delay, Jitter oder Paketverlust steigen in kurzen Fenstern deutlich an.
Queueing-Anomalie: Queueing Delay 99.-Perzentil steigt, Drops pro Klasse nehmen zu, Shaper-Queueing bleibt dauerhaft hoch.
Markierungs-/Mapping-Anomalie: DSCP-Verteilungen verschieben sich, Classify-Hits fehlen, Premium-Volumen steigt unplausibel (Premium-Inflation).
Pfad-/Topologie-Anomalie: Traffic nimmt plötzlich andere Pfade (ECMP-Hash, FRR, SD-WAN Steering), Reordering/Jitter verändert sich.
Service-Anomalie: MOS/R-Faktor fällt, Video-Freezes steigen, Call Setup Times verlängern sich – trotz scheinbar stabiler Linkauslastung.

Machine Learning wird besonders stark, wenn es diese Ebenen zusammenbringt: Es erkennt nicht nur „irgendwas ist anders“, sondern ordnet Abweichungen in die QoS-Welt ein.

Datenbasis: Ohne richtige Telemetrie kein gutes ML

Für Machine Learning für QoS brauchen Sie Daten, die sowohl die Nutzerwirkung als auch die Netzursachen abbilden. Typische Datenquellen:

Aktive Messungen: synthetische Probes pro Klasse (z. B. EF/AF/BE) für Delay/Jitter/Loss in Sekundenfenstern.
Passives QoS-Monitoring: Queueing Delay/Depth, Drops pro Klasse, Scheduler-Share, Shaper/Policer Events, Remarking-Zähler.
Traffic- und Markierungsdaten: DSCP-/CoS-/TC-Verteilungen, Top-Talker pro Klasse, Classify-Hits.
Service-KPIs: RTP/RTCP-Metriken, MOS/R-Faktor, Video Freeze Events, Bitrate Switching, Setup-Zeiten.
Kontextdaten: Maintenance-Fenster, Failover-Events, Routing-Änderungen, Kapazitätsänderungen, Wetter/Standort (bei Funk) oder Kundenprofile.

Ein häufiger Fehler ist, nur „Auslastung“ zu verwenden. Für Echtzeit ist Auslastung allein zu grob. ML braucht Perzentile und Ereignisse, sonst erkennt es die relevanten Spitzen nicht zuverlässig.

Feature-Engineering: QoS in lernbare Signale übersetzen

Gute Features sind oft wichtiger als die Wahl des Modells. Für QoS haben sich folgende Feature-Gruppen bewährt:

Perzentile und Peaks: 95/99 für Delay/Jitter, maximale Loss-Rate in 1s/10s Fenstern, Drop-Cluster-Indikatoren.
Class-Spezifik: pro Klasse getrennte Features (Voice/Control/Video/BE), damit Modelle echte QoS-Effekte sehen.
Derivate: Änderungen und Steigungen (z. B. „Queueing Delay steigt schnell“), nicht nur absolute Werte.
Verteilungsmerkmale: DSCP-Entropie, Anteil EF/AF, Verschiebungen der DSCP-Histogramme.
Korrelationen: Zusammenhang zwischen BE-Fülllast und Voice-Jitter, zwischen Shaper-Queueing und MOS.
Zeitkontext: Tageszeit, Wochentag, Busy-Hour-Indikator, saisonale Muster.

Praktisch wichtig ist die Segmentierung: Features sollten pro Pfad, pro PoP oder pro Engpassinterface berechnet werden. QoS-Probleme sind selten global, sondern lokal.

Modellfamilie 1: Unsupervised Anomalieerkennung für „unbekannte“ Fehler

In Netzbetriebsszenarien fehlen häufig gelabelte Störungen. Deshalb ist unüberwachtes Lernen oft der Einstieg. Typische Ansätze:

Statistische Baselines: dynamische Schwellen pro Zeitfenster (z. B. pro Stunde), robust gegen Saisonalität.
Clustering: normale Betriebszustände als Cluster, Ausreißer als Anomalien.
Rekonstruktion: Modelle, die normales Verhalten „nachbauen“; hohe Abweichung signalisiert Anomalie.
Isolation-Prinzip: Anomalien sind „leicht zu isolieren“, wenn sie selten sind und stark abweichen.

Der Vorteil: Sie erkennen neue Fehlerbilder (z. B. Drift durch ein Template-Update), ohne vorher Beispiele gesammelt zu haben. Der Nachteil: Sie müssen False Positives aktiv managen, sonst verlieren NOC-Teams das Vertrauen.

Modellfamilie 2: Supervised Learning für Klassifikation und Priorisierung

Sobald Sie Incident-Daten, Ticketlabels oder verifizierte Events haben, lohnt sich überwachtes Lernen. Typische Ziele:

Incident-Klassifikation: „Voice-Qualitätseinbruch“, „Video-Drop-Cluster“, „Mapping-Drift“, „Interconnect-Congestion“.
Priorisierung: Vorhersage, welche Anomalien tatsächlich kundensichtbar sind (QoE-Impact).
Root-Cause-Hinweis: wahrscheinlichstes Segment (Access/Metro/Core/NNI) oder Mechanik (Shaper, Policer, Queue).

Supervised Modelle liefern oft höhere Präzision, sind aber datenhungrig. In QoS ist außerdem wichtig, dass Labels sauber sind: „Ticket geöffnet“ ist nicht automatisch „Netzproblem“, manchmal ist es WLAN oder Endgerät. Label-Qualität entscheidet über Modellqualität.

Modellfamilie 3: Forecasting und Change-Point Detection für Perzentile

Viele QoS-Probleme entstehen als schleichende Verschlechterung: steigende 99.-Perzentile, zunehmende Drops, wachsendes Premium-Volumen. Forecasting und Change-Point-Methoden helfen, bevor es eskaliert:

Perzentil-Forecasting: Erwartungswerte für 95/99 von Delay/Jitter, nicht nur Mittelwerte.
Change Points: Erkennen von „Sprungstellen“ (z. B. nach einem QoS-Change, Vendor-Upgrade oder Routing-Änderung).
Kapazitätsfrühwarnung: Kombination aus Traffictrend und Queueing-Perzentilen zur Vorhersage von Busy-Hour-Risiko.

Das ist besonders wertvoll, weil QoS-Incidents oft erst nach Wochen eskalieren. Frühwarnungen sind direkt in Kapazitätsplanung und Change Management nutzbar.

Qualität automatisch bewerten: QoE-Score statt Metrik-Wildwuchs

Für Betriebsteams ist es schwierig, Dutzende Metriken parallel zu interpretieren. Ein QoE- oder QoS-Score kann helfen, solange er transparent ist. Bewährte Prinzipien:

Mehrstufig: separate Scores für Voice, Video, Control, BE statt ein globaler „Wert“.
Perzentil-getrieben: Score reagiert auf 95/99 und Peaks, nicht nur auf Durchschnitt.
Interpretierbar: Score muss erklären können, welche Signale ihn gedrückt haben (z. B. „Queueing Delay 99 hoch“, „Loss-Cluster“).
Kontextsensitiv: Busy Hour und Wartungsfenster werden berücksichtigt, damit nicht jede geplante Änderung als „Anomalie“ gilt.

ML kann hier sowohl bei der Gewichtung als auch bei der Erkennung von Mustern helfen. Wichtig ist, dass der Score nicht zur Blackbox wird, sonst wird er operativ nicht akzeptiert.

Root Cause im Fokus: Von „Anomalie erkannt“ zu „Ursache wahrscheinlich“

Der größte Mehrwert entsteht, wenn ML nicht nur Alarm schlägt, sondern die Fehlerlokalisierung beschleunigt. Dazu braucht es Korrelation und Abhängigkeiten:

Topologie-Korrelation: Wenn mehrere Pfade betroffen sind, ist der gemeinsame Knoten ein Kandidat.
Klassen-Korrelation: Wenn nur EF/Voice leidet, ist LLQ/Markierung/Policer wahrscheinlicher als reine Kapazität.
Mechanik-Korrelation: Shaper-Queueing + steigender Jitter deutet eher auf Bufferbloat/Rate-Mismatch als auf Routing.
Event-Korrelation: Änderungen (Config/Software/Maintenance) als mögliche Ursache automatisch verknüpfen.

In der Praxis ist ein „Top-3 Root Cause Vorschlag“ oft hilfreicher als ein einzelnes „sicheres“ Urteil. So bleibt das System realistisch und unterstützt menschliche Entscheidungen.

Typische QoS-Anomalien, die ML besonders gut erkennt

Premium-Inflation: EF-Anteil steigt langsam, LLQ wird voller, zuerst ohne Drops, später mit EF-Drops.
Bufferbloat: Jitter und Delay-99 steigen, obwohl Drops niedrig bleiben; häufig am Upstream oder rate-limitierten Übergang.
Drop-Cluster bei Video: kurze Verlustspitzen, die Freezes verursachen, während Durchschnittsloss niedrig ist.
Mapping-Drift: DSCP-Histogramme ändern sich an einem Übergang, Classify-Hits verschwinden, QoS-Loch entsteht.
ECMP/LAG Hotspots: einzelne Member droppen, Gesamtlink wirkt ok; ML erkennt Muster über mehrere Flows.
Flapping durch Pfadsteuerung: wiederholte Umschaltungen erzeugen Reordering/Jitterspitzen; erkennbare Sequenzen im Zeitverlauf.

False Positives beherrschen: Der Unterschied zwischen Demo und Betrieb

Ein ML-System für QoS ist nur dann wertvoll, wenn NOC-Teams ihm vertrauen. Dafür braucht es klare Strategien gegen Alarmflut:

Multi-Signal-Bestätigung: Alarm nur, wenn mehrere unabhängige Signale zusammenpassen (z. B. Probes + Queueing Delay).
Kontextfilter: Wartungsfenster, bekannte Events, geplante Rollouts als Kontext einbeziehen.
Schweregrad-Logik: EF-Drops oder Control-Verhungern sind höher priorisiert als BE-Schwankungen.
Feedback-Loop: NOC-Feedback („relevant/nicht relevant“) als kontinuierliches Training nutzen.

Das Ziel ist nicht „jede Abweichung finden“, sondern „relevante Abweichungen früh und verlässlich melden“.

Produktionsreife: MLOps für QoS-Monitoring

Machine Learning für QoS ist ein Betriebssystemthema. Ohne MLOps entstehen stille Modellfehler: Drift, Datenlücken, neue Trafficmuster. Praktische Bausteine:

Datenqualität: fehlende Messpunkte, Zeitsynchronisation, Outlier-Handling, konsistente Labels.
Modell-Drift: Erkennen, wenn „normal“ sich verändert (z. B. neue UC-Plattform, neue Video-Codecs, neue Peering-Topologie).
Versionierung: Modelle und Feature-Definitionen versionieren wie Konfigurationen.
Canary-Ausrollung: neue Modelle zunächst auf Teilmenge der PoPs/Regionen, bevor global.
Auditierbarkeit: nachvollziehbar, warum ein Alarm ausgelöst wurde (Explainability als Pflicht, nicht als Bonus).

Gerade in Telco-Umgebungen mit SLAs und regulatorischen Anforderungen ist Transparenz ein zentraler Bestandteil von E-E-A-T im technischen Sinne: Expertise, saubere Prozesse und nachvollziehbare Entscheidungen.

Datenschutz und Sicherheit: Sensible Telemetrie verantwortungsvoll nutzen

QoS-Telemetrie kann sensitive Informationen berühren (Kundensegmente, Standorte, Trafficmuster). Ein praxisnaher Ansatz ist:

Aggregieren statt personenbezogen: pro Pfad/PoP/Klasse und Perzentile statt pro Nutzerflow, wo möglich.
Minimierung: nur Daten erfassen, die für QoS-Qualität und Anomalien notwendig sind.
Zugriffskontrolle: Rollenmodelle, Logging, klare Aufbewahrungsfristen.

So bleibt ML für QoS technisch wirksam, ohne unnötige Risiken zu erzeugen.

Praxis-Blueprint: So starten Sie ML-basierte QoS-Anomalieerkennung

Schritt 1: Ziele definieren: Welche Anomalien sind teuer (Voice knackt, Video ruckelt, Mapping-Drift) und welche KPIs zählen (Perzentile, Drops, MOS)?
Schritt 2: Datenbasis stabilisieren: Probes pro Klasse, Queueing Delay/Drops, DSCP-Verteilungen, Shaper/Policer Events, Service-KPIs.
Schritt 3: Feature-Set bauen: Perzentile, Peaks, Cluster-Indikatoren, zeitliche Derivate, Kontextmerkmale.
Schritt 4: Unsupervised Einstieg: Baselines und Ausreißererkennung pro Segment/Pfad; Alarmierung mit Schweregrad.
Schritt 5: Root-Cause-Korrelation ergänzen: Topologie- und Klassen-Korrelation, Event-Korrelation (Changes/Maintenance).
Schritt 6: Feedback operationalisieren: NOC-Rückmeldungen sammeln, Labels verbessern, supervised Modelle schrittweise einführen.
Schritt 7: MLOps etablieren: Drift-Checks, Versionierung, Canary-Rollout, Explainability und Audit.

Häufige Fragen aus dem Betrieb

Kann ML klassische QoS-Mechaniken wie DiffServ ersetzen?

Nein. DiffServ, Shaping und Queueing sind die Mechanik, die Pakete tatsächlich behandelt. ML ist die Steuer- und Beobachtungsebene: Es erkennt Anomalien, priorisiert Incidents, zeigt Ursachenwahrscheinlichkeiten und unterstützt Entscheidungen. In Kombination entsteht ein stabiler, serviceorientierter Betrieb.

Welche Metrik ist für ML in Echtzeitdiensten am wichtigsten?

Perzentile und Peaks. Für Voice und Video sind 95/99-Perzentile von Delay/Jitter sowie Loss-Cluster in kurzen Fenstern oft aussagekräftiger als Durchschnittswerte. Ergänzend sind Queueing Delay und Drops pro Klasse essenziell, weil sie Ursachen sichtbar machen.

Woran erkenne ich, ob mein ML-System wirklich Mehrwert liefert?

Wenn es die Zeit bis zur Erkennung und Eingrenzung reduziert: weniger „mystische“ QoE-Tickets, schnellere Zuordnung zu Segment/Mechanik (Shaper, Policer, Mapping, Pfad), weniger False Positives im NOC und messbar weniger Wiederholincidents durch Drift-Erkennung und Frühwarnungen.