Segment Routing (SR-MPLS): Failure Modes, die Ops beherrschen müssen

Red Snapper

1 month ago

Segment Routing (SR-MPLS) wird oft als „weniger Protokolle, weniger Probleme“ verkauft: Kein klassisches LDP, weniger Signalisierung, klarere Pfadsteuerung. Operativ stimmt das teilweise – aber nur, wenn Operations-Teams die Failure Modes von SR-MPLS wirklich beherrschen. Denn SR verschiebt die Komplexität: weg von LDP-Nachbarschaften hin zu SID-Planung, IGP-Extensions, Policy-Logik, Label-Stacks, FRR-Mechaniken (z. B. TI-LFA) und der Frage, wie ein Router im Fehlerfall den „Intent“ eines Pfads interpretiert. Viele SR-Incidents fühlen sich zunächst „mysteriös“ an: Der Underlay-Ping ist ok, IGP ist converged, aber ein SR-Policy-Traffic fließt nicht wie geplant; nur bestimmte Services sind betroffen; MTU-Probleme tauchen plötzlich auf; oder ein einzelner Node-SID-Drift isoliert einen PoP. Genau deshalb braucht SR-MPLS im NOC klare, wiederholbare Nachweise: Welche SID-Liste ist aktiv? Welche Candidate Path wurde gewählt? Welche Repair-Mechanik griff? Und ist das Problem Control Plane, Policy-Ebene oder Data Plane? Dieser Artikel beschreibt die wichtigsten Failure Modes von Segment Routing (SR-MPLS), die Ops beherrschen müssen – inklusive typischer Symptome, schneller Diagnoseanker und praktischer Mitigation-Ansätze.

Kurzer Kontext: Was SR-MPLS operativ anders macht

In SR-MPLS wird die Forwarding-Entscheidung häufig über Segment-IDs (SIDs) beschrieben. Node-SIDs repräsentieren Knoten, Adj-SIDs repräsentieren Links/Adjazenzen (je nach Design), und SR-Policies können explizite SID-Listen vorgeben, die einen Traffic-Intent ausdrücken. Die SR-Informationen werden typischerweise über IGP-Extensions verteilt; SR-Policies können lokal oder zentral gesteuert werden. Operativ bedeutet das: Fehler entstehen nicht nur durch „Link down“, sondern durch Inkonsistenzen in SIDs, Policies oder Label-Stack-Handling. Als Referenz für SR-Architektur eignet sich RFC 8402, für SR mit MPLS Datenebene RFC 8660.

Failure Mode 1: SID-Plan-Drift (Node-SID-Kollisionen oder Inkonsistenzen)

Ein klassischer SR-Fehler ist ein inkonsistenter SID-Plan. Wenn zwei Router dieselbe Node-SID nutzen oder wenn Node-SIDs in einem PoP anders geplant sind als im Rest des Netzes, kann Traffic falsch zugestellt oder blackholed werden. Das ist operativ besonders gefährlich, weil IGP „gesund“ wirken kann: Die Topologie stimmt, aber die Segment-Identitäten sind falsch.

Symptom: Traffic nimmt „falsche“ Wege, endet an unerwarteten Egresses, oder bestimmte Regionen werden isoliert.
Symptom: nur SR-Policy-Traffic betroffen; normaler IGP-Traffic wirkt ok.
Diagnoseanker: Konsistenzcheck der advertised SIDs pro Node; Vergleich mit Source-of-Truth.
Mitigation: SID-Plan korrigieren, Rollout stufenweise; bei akuter Störung betroffene Policies deaktivieren oder auf IGP-shortest-path zurückfallen.

Failure Mode 2: SR-IGP-Extension Probleme (SR Capability nicht überall konsistent)

SR hängt stark davon ab, dass IGP-Extensions korrekt verteilt und interpretiert werden. Wenn einzelne Router SR nicht vollständig unterstützen (Softwarestand, Feature-Flags, falsche IGP-Parameter), entstehen „Halb-SR“-Zustände: ein Teil des Netzes kennt die SIDs oder SR-Attribute nicht korrekt.

Symptom: SR Policies bleiben down oder wechseln unerwartet; Pfade sind zwischen Knoten inkonsistent.
Symptom: nur bestimmte PoPs/Linecards betroffen – häufig nach Upgrades.
Diagnoseanker: SR Capability/Flags pro Router, IGP-Datenbank-Sicht konsistent?
Mitigation: Feature-Parität herstellen, SR nur in validierten Domänen aktiv; Upgrade-Standardisierung.

Failure Mode 3: Policy-Selection Fehler (Candidate Paths, Preference, Fallback)

SR-MPLS wird im Betrieb oft über SR Policies genutzt. Diese haben häufig Candidate Paths (z. B. explicit vs. dynamic), Prioritäten und Fallback-Mechaniken. Ein häufiger Failure Mode ist nicht „Path down“, sondern „Policy wählt den falschen Candidate“ oder fällt in einen ungewollten Fallback, der zwar technisch funktioniert, aber Kapazität oder Latenz sprengt.

Symptom: plötzlich andere Latenzprofile, Congestion auf unerwarteten Links, aber keine harten Alarme.
Symptom: Traffic driftet nach einem Change oder nach einem Link-Event.
Diagnoseanker: Welcher Candidate Path ist aktiv? Warum (Preference, Validity, Constraints)?
Mitigation: Policy-Guardrails (nur erlaubte Fallbacks), Change-Validation mit Probes, klar definierte „Stop“-Kriterien.

Failure Mode 4: ECMP und SR – unerwartete Lastverteilung

SR löst ECMP nicht auf. Auch SR-Pfade können über ECMP-Segmente laufen. Das bedeutet: Partial Failures und selektive Drops bleiben relevant. Zusätzlich kann die Kombination aus Policy-Steering und ECMP Hotspots erzeugen: Viele Flows werden gezielt auf denselben Pfad gelenkt, der vorher „zufällig“ verteilt war.

Symptom: nur einige Kunden betroffen, oder nur bestimmte Flows (Hash-bedingt).
Symptom: Queue Drops steigen auf einem Segment nach Policy-Änderung.
Diagnoseanker: per-next-hop/per-LAG-member Telemetrie, Multi-Flow-Probes, Traffic-Shift-Korrelation.
Mitigation: Headroom-Regeln, schrittweises Steering, per-segment Monitoring als Pflicht.

Failure Mode 5: TI-LFA/FRR greift falsch oder unvollständig

Viele SR-Backbones setzen auf schnelle Umleitung (Fast Reroute). TI-LFA ist eine verbreitete Technik, deren Details je nach Plattform variieren. Operativ ist die gefährliche Situation: FRR greift scheinbar, aber der Repair Path ist suboptimal oder erzeugt Transienten, die Kunden sehen (Loss-Spikes, Microbursts).

Symptom: sehr kurze, aber harte Loss-Spikes bei Link-Fails; danach Stabilisierung.
Symptom: manche Links failen „clean“, andere verursachen große Impact-Fenster (Coverage-Lücken).
Diagnoseanker: FRR-Coverage-Metriken, Repair Path Aktivierungs-Events, Zeit bis No-Impact.
Mitigation: Coverage messen und als KPI behandeln; Topologie/Metriken so designen, dass FRR möglich ist.

Failure Mode 6: Label-Stack-Overhead und MTU-Regressionen

SR-MPLS kann mehr Labels im Stack nutzen als klassische LDP-Setups, insbesondere bei expliziten Segmentlisten oder bei zusätzlichen Service-Labels. Dadurch sinkt die maximale Payload, wenn die physische MTU nicht angepasst ist. Das führt zu PMTUD-/MTU-Blackholes, die sich oft als „nur bestimmte Anwendungen“ zeigen.

Vereinfachte Payload-Abschätzung (MathML)

Payload_max = MTU_link − Labels×4 − L3_header

Symptom: kleine Pakete ok, große brechen; TLS/HTTP2/QUIC auffällig.
Diagnoseanker: small vs. large Probes, ICMP/PMTUD-Verhalten, Drops ohne Errors.
Mitigation: MTU-Standard erhöhen, Stack-Längen kontrollieren, Policy-Design so wählen, dass Stack nicht unnötig wächst.

Failure Mode 7: OAM/Observability-Lücken – SR ist da, aber niemand sieht den aktiven Pfad

In vielen Migrationen ist das größte Ops-Problem nicht SR selbst, sondern fehlende Sichtbarkeit: Teams wissen nicht, welche SID-Liste gerade aktiv ist, welche Policy gewinnt, oder ob der Pfad sich verändert hat. Dann wird Troubleshooting wieder zu Rätselraten – genau das, was SR eigentlich verbessern soll.

Symptom: lange MTTR, weil „Policy-Ebene“ nicht sichtbar ist.
Diagnoseanker: Policy-Status, Candidate Path, SID-Stack, Counters pro Policy/Segment.
Mitigation: SR-Policy-Telemetrie als Pflicht; standardisierte Dashboards und Ticket-Felder (Policy-ID, Active Path).

Failure Mode 8: Multi-Vendor-Interop und Feature-Drift

SR-MPLS ist standardisiert, aber Details sind in Multi-Vendor-Netzen operativ entscheidend: SID-Behaviors, OAM-Implementierung, Policy-Features, FRR-Mechaniken und Telemetrie unterscheiden sich. Das kann zu „funktioniert im Lab, bricht in Produktion“ führen, wenn ein Vendor im Failurefall anders reagiert.

Symptom: Probleme nur an Vendor-Grenzen oder nach Rolling Upgrades.
Diagnoseanker: Feature-Matrix pro Plattform, konsistente Defaults, Interop-Tests als Teil von Change-Validation.
Mitigation: standardisierte Profile, schrittweise Rollouts, klare „Supported Feature Set“-Definition.

Failure Mode 9: Traffic Steering erzeugt Second Outage nach Recovery

SR macht Traffic Engineering einfacher – und damit ist das Risiko größer, große Traffic Shifts schnell auszulösen. Nach Repairs oder nach Policy-Rollbacks kann Traffic auf einmal zurückspringen und Congestion verursachen. Das ist der klassische Second Outage nach Mass-Recovery, nur eben mit SR-Triggern.

Symptom: nach „Fix“ steigt Loss/Latenz wieder, weil Traffic zurückschwappt.
Diagnoseanker: Traffic-Shift-Timeline, Queue Drops, Policy-Change-Events.
Mitigation: Graceful Re-Enable, stufenweises Zurücknehmen von Policies, Headroom-Planung.

Ops-Runbook: SR-MPLS Incident-Triage in Minuten

Das folgende Runbook ist bewusst vendorneutral und auf Nachweise fokussiert. Es reduziert SR-Incidents auf drei Ebenen: Underlay, SR-Policy, Data Plane.

Schritt: Scope und Klassifikation

Welche Services? nur SR-Policy Traffic oder auch normaler IGP-Transport?
Welche Regionen/PoPs? isoliert oder global?
Welche Richtung? einseitig oder bidirektional?
Welche Größe/Protokolle? MTU-Indizien (small ok, large fail)?

Schritt: Underlay sanity check

IGP stabil? Adjazenzen, SPF-Churn, Loopback-Reachability.
Data Plane Health: Queue Drops, LAG-member Errors, Congestion auf Kernlinks.

Schritt: SR-Policy Nachweis

Policy aktiv? welcher Candidate Path ist gewählt?
SID-Stack plausibel? entspricht er dem erwarteten Intent (Node/Adj SIDs)?
Fallback passiert? und wenn ja, warum?

Schritt: Pfadvalidierung und Segment-Telemetrie

OAM-Ansatz: Pfadvalidierung entlang des tatsächlichen SR-Pfads (inkl. Segmentliste), soweit Tooling das unterstützt.
Segment-Hotspots: welche Links/Nodes zeigen Drops oder ungewöhnliche Latenzspitzen?

Schritt: Mitigation wählen

Policy degraden: gezielt auf sicheren Fallback (IGP-shortest-path), wenn Policy-Ebene verdächtig ist.
Traffic drosseln/umlenken: wenn Congestion/Partial Failure, Headroom schaffen oder Steering anpassen.
MTU fixen: wenn Stack-Länge/PMTUD-Indizien, MTU standardisieren und ICMP/PMTUD sicherstellen.

Evidence Pack: Pflichtdaten für SR-MPLS RCAs

Policy-Daten: Policy-ID, aktive Candidate Path, SID-Stack, Change-Historie im Zeitfenster.
IGP/SR Daten: advertised SIDs pro Node, SR-Capability pro Router, Inkonsistenz-Indizien.
Data Plane: Queue Drops, per-link/per-member Errors, Traffic Shift Metriken.
Probes: End-to-End SLIs, small vs. large Tests (MTU), multi-flow Probes (ECMP).

Outbound-Ressourcen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.