MPLS TE vs. SR-TE: Operative Auswirkungen auf Reliability

Red Snapper

1 month ago

Das Hauptkeyword „MPLS TE vs. SR-TE“ steht im Provider-Betrieb für eine sehr praktische Frage: Welche Traffic-Engineering-Technologie liefert im Alltag die bessere Reliability – also weniger Outages, schnellere Wiederherstellung und weniger operative Überraschungen? Viele Diskussionen bleiben auf Architekturfolien hängen („Stateful vs. stateless“, „Controller-first“), während NOC- und Backbone-Teams vor ganz anderen Problemen stehen: Warum hat ein Tunnel umoptimiert, obwohl keine Störung vorlag? Weshalb ist ein Failover zwar schnell, aber führt dennoch zu Paketverlust durch Kapazitätsengpässe? Und warum sieht die Diagnose über klassische Tools manchmal „gesund“ aus, obwohl die Servicequalität einbricht? In beiden Welten – MPLS TE (typischerweise RSVP-TE) und SR-TE (Segment Routing Traffic Engineering) – gibt es robuste Betriebsmodelle. Der Unterschied liegt weniger in „besser/schlechter“, sondern in den Failure Modes, der Observability und im Change-Risiko. Dieser Artikel betrachtet MPLS TE vs. SR-TE aus operativer Sicht: Welche Auswirkungen haben Signalisierung, State, Protection-Mechanismen, Pfadsteuerung und Telemetrie auf Zuverlässigkeit? Welche Fehlerbilder treten häufiger auf? Und wie lässt sich die Reliability unabhängig von der Technologie messbar verbessern, statt nur Designpräferenzen zu diskutieren?

Begriffe und Ausgangslage: Was mit „TE“ im Backbone gemeint ist

Traffic Engineering (TE) bedeutet im Provider-Kontext meist: Pfade werden nicht nur nach IGP-Shortest-Path genutzt, sondern bewusst gesteuert – nach Kapazität, Latenz, SLA-Klassen, Wartungsfenstern oder Failure-Domain-Strategien. In klassischen MPLS-Backbones wird TE häufig über RSVP-TE realisiert, während moderne Netze zunehmend auf Segment Routing (SR-MPLS) mit SR-TE umstellen.

MPLS TE (RSVP-TE): TE-LSPs werden per RSVP signalisiert, jeder Transit hält State für den Tunnel. Referenz: RFC 3209.
SR-MPLS / SR-TE: Pfade werden als Segmentlisten abgebildet, TE-Policies werden über Controller oder verteilte Mechanismen installiert. Architektur: RFC 8402.

Beide Ansätze nutzen MPLS-Labels im Datenpfad (Architektur: RFC 3031, Label-Stack: RFC 3032). Die Reliability hängt daher nicht nur von der TE-Technik ab, sondern auch vom Underlay (IGP, ECMP, Optical), von Timer- und MTU-Disziplin sowie von operativen Guardrails.

Reliability operativ definieren: Woran Teams es wirklich merken

„Reliability“ ist mehr als „Tunnel up“. In der Praxis umfasst Zuverlässigkeit mehrere Dimensionen:

Verfügbarkeit: Services sind erreichbar, Pfade existieren, Control Plane ist stabil.
Wiederherstellungszeit: Wie schnell wird nach einem Link-/Node-Failure auf einen funktionierenden Pfad geschwenkt?
Qualität unter Störung: Wie viel Loss/Jitter entsteht während Failover, Re-Routes oder Re-Optimierungen?
Operative Vorhersagbarkeit: Verhalten ist erklärbar und reproduzierbar, nicht „magisch“.
Change-Risiko: Wie hoch ist die Wahrscheinlichkeit, dass ein Change unerwartet TE-Pfade destabilisiert?

Eine einfache, aber nützliche Kenngröße ist die End-to-End-Verfügbarkeit in einem Zeitraum. Wenn Sie zwei unabhängige Pfade (Primär und Schutz) haben, kann die kombinierte Verfügbarkeit näherungsweise so abgeschätzt werden:

A_total = 1 – (1–A_primary) × (1–A_backup)

In der Realität sind Pfade selten vollständig unabhängig (Shared Risk Link Groups, gemeinsame Linecards, gemeinsame DWDM-Segmente). Genau hier kommt TE ins Spiel: Es kann Abhängigkeiten reduzieren – oder, bei falscher Umsetzung, Abhängigkeiten unbeabsichtigt verstärken.

Stateful vs. „source-routed“: Der zentrale Unterschied mit operativen Folgen

Der größte strukturelle Unterschied: RSVP-TE ist klassisch stateful im Netz. SR-TE verschiebt viel TE-Intelligenz an den Edge oder in einen Controller und nutzt Segmentlisten als „source-routed“ Anweisung (im SR-MPLS-Kontext über Labels). Für Reliability ergeben sich daraus gegensätzliche Stärken und Risiken.

MPLS TE (RSVP-TE): Reliability-Effekte durch per-hop State

Stärke: Das Netz „kennt“ den Tunnelzustand entlang des Pfads. Das kann deterministisches Verhalten bei Constraints und Bandbreite fördern.
Risiko: Mehr State im Netz bedeutet mehr Angriffsfläche für Skalierungs- und Synchronisationsprobleme (Control-Plane-Last, Resignaling, Path-Refresh, State-Timeouts).
Operative Folge: Ein Control-Plane-Problem (CPU, RSVP-Refresh-Storm) kann Reliability großflächig beeinflussen – selbst wenn die Datenebene grundsätzlich tragfähig ist.

SR-TE: Reliability-Effekte durch weniger Transit-State

Stärke: Weniger per-hop Signalisierungsstate reduziert potenzielle Failure Modes durch RSVP-spezifische Mechaniken.
Risiko: SR-TE hängt stark von korrekter Segment-Information im IGP und von konsistenter Policy-Verteilung ab (Controller/Distribution, Version-Drift).
Operative Folge: Fehlerbilder verschieben sich: weniger „RSVP kaputt“, dafür häufiger „Policy/Segmentliste falsch oder inkonsistent“.

Fast Reroute und Schutzpfade: Was sich an der Reliability wirklich entscheidet

Bei großen Outages zählt nicht, ob ein Pfad elegant berechnet wird, sondern wie schnell und sauber umgeschaltet wird. Sowohl MPLS TE als auch SR-TE können schnelle Schutzmechanismen nutzen, aber die operative Handhabung unterscheidet sich.

Protection in MPLS TE: FRR, Detours und lokale Reaktion

RSVP-TE-Umgebungen nutzen häufig Fast Reroute (FRR), um lokal am Failure Point auf einen Backup-Pfad zu wechseln. Das ist reliability-stark, aber betriebsintensiv:

Pro: Sehr schnelle lokale Reaktion möglich, ohne auf end-to-end Reconvergence zu warten.
Contra: Komplexe Parameter (Bandwidth, Priorities, Constraints), potenziell hohe State-Zahl, schwierige Kapazitätsplanung von Backups.
Reliability-Risiko: Schutzpfad existiert, aber ist nicht kapazitiv ausreichend → Failover erzeugt Loss und führt zu Folgeincidents.

Protection in SR-TE: Topology-Independent Loop Free Alternates und Policy-Steuerung

SR-TE wird in der Praxis häufig mit IGP-basierten Schutzmechanismen kombiniert (z. B. TI-LFA). Das kann die Recovery sehr zuverlässig machen, wenn die Topologie und Segment-Informationen sauber sind:

Pro: Schnelle, skalierbare lokale Reparatur ohne RSVP-spezifisches Signalisierungsaufkommen.
Contra: Schutz hängt von korrekter IGP-Sicht und Segmentzuordnung ab; falsche SR-Information kann Schutzpfade unerwartet verändern.
Reliability-Risiko: Bei inkonsistenter SR-Topology-Information kann ein Repair zwar triggern, aber in einen suboptimalen oder überlasteten Pfad führen.

Re-Optimierung und „Self-Inflicted Incidents“: Wenn das Netz sich selbst umbaut

Ein häufiger Reliability-Killer sind nicht Hard-Failures, sondern automatische Re-Optimierungen, die in ungünstigen Situationen Loss oder Jitter verursachen. Operativ sind das die Fälle, in denen „nichts kaputt“ aussieht, aber Kunden SLA-Verletzungen melden.

RSVP-TE Re-Optimization: Stabilität durch Regeln, Instabilität durch falsche Timer

Typisches Muster: Nach IGP-Änderungen oder Kapazitätsveränderungen werden RSVP-TE-Tunnel neu signalisiert oder umoptimiert.
Reliability-Gefahr: Häufige Umoptimierung erzeugt Mikro-Unterbrechungen oder transienten Loss.
Operative Guardrails: Re-Optimization-Fenster, Hysterese, klare Change-Windows, Monitoring von „Tunnel churn“.

SR-TE Policy-Churn: Wenn Controller-Updates die Reliability treffen

Typisches Muster: Controller pusht neue Segmentlisten (z. B. für Load-Balancing oder Maintenance), Policies ändern Pfade in kurzer Folge.
Reliability-Gefahr: Version-Drift oder zeitversetzte Updates führen zu inkonsistentem Verhalten zwischen PEs.
Operative Guardrails: Staged Rollouts, Canary-PoPs, Policy-Versionierung, schnelle Rollback-Mechanik.

Observability: Was Sie messen müssen, um Reliability wirklich zu verbessern

In der Praxis scheitern Reliability-Initiativen oft nicht an Technik, sondern an fehlenden Signalen. „Tunnel up“ ist ein binärer Indikator, der viele degradierte Zustände nicht abbildet. Für MPLS TE vs. SR-TE sollten Sie mindestens folgende Telemetrie standardisieren:

Pfadqualität pro Klasse: Delay/Jitter/Loss pro TE-Policy oder TE-Tunnel, nicht nur global.
Churn-Metriken: Wie oft ändern sich Pfade pro Stunde/Tag (Tunnel resignaled, Policy updated, SR path changed)?
Protection Events: Umschaltungen (FRR/TI-LFA), Dauer bis zur Stabilisierung, betroffene Bandbreite.
Hotspot-Indikatoren: Link-Auslastung, Queue-Drops, Mikrobursts nach Umschaltungen.
Control-Plane-Health: RSVP-Sessions/Refresh-Errors (bei MPLS TE), IGP-SR-DB-Konsistenz und Policy-Distribution (bei SR-TE).

Ein nützliches operatives Maß ist die „Pfadwechselrate“, weil sie direkt mit Kundenwahrnehmung korreliert. Sie lässt sich für einen Zeitraum T als Anzahl der Pfadwechsel pro Policy/Tunnel definieren:

PathChange_Rate = N_path_changes T

Wenn diese Rate steigt, ohne dass es echte Failures gab, ist das ein Alarmzeichen für Re-Optimization-/Policy-Churn-Probleme.

Failure Modes im Vergleich: Was im Incident typischerweise kaputtgeht

Für Reliability zählt, welche Fehlerbilder häufig auftreten und wie schnell sie isoliert werden können. Die folgende Gegenüberstellung ist bewusst operativ formuliert:

Häufige Failure Modes bei MPLS TE (RSVP-TE)

Signalisierung bricht: RSVP-Session-Probleme, Refresh-Anomalien, CPU-Pressure auf Transit-Knoten.
State-Drift: Tunnelzustände inkonsistent nach Failover oder Teilnetzpartition.
Bandwidth-Constraints blockieren Recovery: Schutzpfad kann nicht signalisiert werden, obwohl physisch Pfad existiert.
Mass Resignaling: Nach IGP-Event werden viele Tunnel gleichzeitig neu signalisiert → transiente Instabilität.

Häufige Failure Modes bei SR-TE

Policy-Inkonsistenz: Segmentlisten/Policies sind nicht überall identisch (Rollout, Versionierung, Controller-Ausfall).
IGP-SR-DB-Drift: SR-SIDs oder Topologieinformationen sind inkonsistent, was Schutzpfade und Pfadberechnung beeinflusst.
Fehlerhafte Segmentlisten: Falsche SID-Reihenfolge oder falsche Constraints führen zu „funktioniert, aber überlastet“.
Controller-Abhängigkeit: Bei stark zentralisiertem Betrieb kann Controller-Unverfügbarkeit Changes/Recovery verzögern, wenn keine lokale Fallback-Logik existiert.

Change-Management: Welche Technologie ist im Change-Window riskanter?

Change-Risiko ist ein zentraler Bestandteil von Reliability. Die Frage „riskanter“ hängt von Ihrem Betriebsmodell ab, aber typische Muster sind klar.

RSVP-TE: Riskant bei großflächigen Topologie- und Timer-Änderungen

Hohe Kopplung: Kleine Änderungen an IGP, Bandwidth-Parametern oder RSVP-Timern können große Resignaling-Wellen auslösen.
Vorhersage möglich: Wenn State und Constraints sauber modelliert sind, ist Verhalten oft deterministisch – aber die Modellpflege ist anspruchsvoll.
Operative Empfehlung: Re-Optimization begrenzen, klare Wartungsfenster, FRR/Backup-Kapazitäten regelmäßig testen.

SR-TE: Riskant bei Policy-/Controller-Rollouts ohne Schutzmechanismen

Rollout-Charakter: Policies sind „Software“: Versionen, Staging, Rollback, Distribution sind entscheidend.
Geringerer Transit-State: weniger Risiko durch Signalisierungsstürme, dafür mehr Risiko durch inkonsistente Konfiguration.
Operative Empfehlung: Canary-Deployment, Policy-Validierung vor Aktivierung, automatische Consistency-Checks.

Reliability-Gewinner im Alltag: Es hängt am Operating Model, nicht am Buzzword

Ein verlässlicher Vergleich lässt sich an zwei praktischen Fragen festmachen: (1) Wie schnell finden Sie die Root Cause im Incident? (2) Wie oft erzeugt das System ungeplante Pfadänderungen oder Skalierungsprobleme?

Wenn Ihr Team stark prozedural arbeitet und TE vor allem für deterministische Pfade mit strikten Constraints nutzt, kann MPLS TE sehr zuverlässig sein – vorausgesetzt, State-Scale und Re-Optimization sind kontrolliert.
Wenn Ihr Team stark automatisiert und Policies als Code betreibt, kann SR-TE Reliability deutlich erhöhen – vorausgesetzt, Policy-Distribution und Konsistenz sind erstklassig umgesetzt.

Praktische Checkliste: Reliability-Guardrails für MPLS TE und SR-TE

Failure-Domains definieren: SRLGs/Shared Risks erfassen, Pfaddiversität gezielt planen.
MTU-Disziplin: MPLS-Overhead berücksichtigen, PMTUD nicht blockieren, Tests mit großen Paketen standardisieren.
Churn-Limits: Re-Optimization (RSVP-TE) und Policy-Updates (SR-TE) begrenzen, Hysterese nutzen.
Protection testen: FRR/TI-LFA nicht nur konfigurieren, sondern regelmäßig im Wartungsfenster verifizieren.
Kapazitätsreserven: Schutzpfade müssen nicht nur existieren, sondern auch tragen; Überlast nach Failover ist ein Reliability-Anti-Pattern.
Consistency Monitoring: RSVP-TE: Session/State Health; SR-TE: SR-DB und Policy-Versionen, Abweichungen alarmieren.
Staged Changes: Canary-PoPs, Rollback in Minuten, klare Owner für Underlay, TE und Servicequalität.

Outbound-Links für Standards und vertiefende Quellen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.