LDP/RSVP Failure Modes: Warum Konvergenz langsam sein kann

Red Snapper

1 month ago

Das Hauptkeyword „LDP/RSVP Failure Modes: Warum Konvergenz langsam sein kann“ beschreibt ein Problem, das Operatoren häufig erst dann richtig spüren, wenn ein Backbone-Event bereits Kunden betrifft: Ein Link fällt aus, das IGP konvergiert scheinbar schnell, aber MPLS-Services brauchen deutlich länger, bis sie wieder stabil laufen. In solchen Situationen ist die Versuchung groß, ausschließlich auf OSPF/IS-IS zu schauen oder pauschal „MPLS ist langsam“ zu sagen. In Wirklichkeit entstehen lange Wiederherstellungszeiten meist durch konkrete Failure Modes in LDP (Label Distribution Protocol) oder RSVP-TE (Resource Reservation Protocol für Traffic Engineering): Timer greifen anders als erwartet, Sessions gehen in Zwischenzustände, Soft-State läuft ab, Rate-Limits bremsen Signalisierung, oder die Control Plane wird durch massenhaft Updates überlastet. Besonders kritisch ist die Kopplung aus Underlay-Änderung (IGP/Link-State) und Overlay-Mechanik (Label- oder TE-State), weil beide Ebenen in kurzen Zeitfenstern gleichzeitig „arbeiten“ müssen. Dieser Artikel zeigt praxisnah, welche typischen LDP- und RSVP-Fehlerbilder Konvergenz verlangsamen, woran Sie sie in der Telemetrie erkennen und welche betrieblichen Guardrails (Timer-Disziplin, Synchronisierung, Schutzmechanismen) die Mean Time To Restore messbar reduzieren.

Konvergenz im MPLS-Backbone: Was „langsam“ operativ bedeutet

Im Betrieb ist „Konvergenz“ nicht nur die Zeit, bis ein IGP einen neuen SPF berechnet hat. Für MPLS-Services umfasst Konvergenz mehrere Phasen, die sich addieren können:

Fehlerdetektion: Wie schnell wird ein Link-/Node-Failure erkannt? (Loss of Signal, BFD, IGP-Dead-Timer)
Underlay-Konvergenz: IGP-Flooding, SPF/CSFP, FIB-Programmierung
MPLS-Control-Plane: LDP-Label-Neuberechnung oder RSVP-TE Resignaling/Repair
Datenebene stabilisiert: LFIB-Updates, Queue-Rebalancing, ECMP-Hashing, ggf. FRR-Umleitung

Eine einfache Näherung, warum „gefühlt langsam“ entsteht, ist die Summe dieser Teilzeiten:

T_restore = T_detect + T_igp + T_mpls + T_data

In vielen Netzen ist T_igp bereits optimiert, während T_mpls durch LDP/RSVP-Failure Modes dominiert wird. Genau darauf fokussieren die nächsten Abschnitte.

LDP-Grundmechanik: Warum Labels trotz „IGP up“ fehlen können

LDP verteilt Label-Bindings typischerweise entlang der IGP-Topologie. Operativ heißt das: Wenn IGP-Nachbarschaften stabil sind, erwartet man „Labels folgen automatisch“. Dennoch können nach einem Event kurzfristig oder länger Labels fehlen, weil LDP eigene Zustände und Abhängigkeiten hat: TCP-basierte Sessions, Hello-Mechanik, Label-Retention-Strategien, Synchronisierung mit IGP sowie Plattform-lokale Programmierung von LIB/LFIB.

Für die Protokolldetails ist RFC 5036 (LDP Specification) die zentrale Referenz.

Typische LDP Failure Modes, die Konvergenz verlangsamen

Hellotimer vs. Session-Timeout: Der klassische „Detect-Lag“

LDP nutzt Hellos (UDP) zur Nachbarerkennung, während die eigentliche LDP-Session über TCP läuft. Wenn Hellos spät ausfallen oder Hold-Timer zu konservativ sind, kann die Session länger „halb-leben“, obwohl der Pfad bereits nicht mehr nutzbar ist. Dadurch verzögert sich die Label-Withdraw/Update-Kette und damit LFIB-Konvergenz.

Symptom: IGP konvergiert, aber LDP-Session bleibt noch „up“ oder pendelt.
Impact: Labels werden nicht rechtzeitig neu bewertet; Forwarding kann auf stale Next Hops zeigen.
Telemetrie: LDP neighbor state transitions, Hello timeout counters, TCP keepalive/RTT, Session-Reset-Gründe.

TCP als Engpass: Retransmits, Head-of-Line-Blocking und Control-Plane-Backpressure

Weil LDP Sessions TCP nutzen, können Paketverluste, Queueing oder CPU-Pressure auf der Control Plane die Signalisierung ausbremsen. Gerade bei großflächigen Events (Link-Failure, IGP reconvergence) entstehen viele LDP-Updates gleichzeitig. Wenn TCP Retransmits steigen oder Control-Plane-Policer greifen, wird aus einer Sekunde schnell eine Minute.

Symptom: Viele Sessions bleiben up, aber Label-Messages kommen verzögert an.
Impact: LIB ist inkonsistent, LFIB-Programmierung hängt hinterher.
Telemetrie: TCP retransmits, Control-Plane drops, LDP message queue depth, CPU peaks, CoPP/CPPr hit rates.

Mass-Update nach IGP-Event: LIB/LFIB-Churn und langsame Programmierung

Ein großer Teil der „LDP ist langsam“-Wahrnehmung kommt nicht vom Protokoll selbst, sondern von der Plattform-Umsetzung: Nach Topologieänderungen müssen Label-Bindings neu bewertet und Forwarding-Einträge umprogrammiert werden. Bei großen Tabellen kann das seriell und rate-limitiert erfolgen.

Symptom: LDP-Sessions stabil, aber Traffic blackholed oder nur teilweise wiederhergestellt.
Impact: Datenpfad instabil, bis LFIB vollständig aktualisiert ist.
Telemetrie: LFIB programming time, install/backlog counters, FIB/LFIB sync alarms, „stale label“ Indikatoren.

IGP-LDP Synchronisierung fehlt: Blackholing trotz schneller IGP-Konvergenz

Wenn IGP sehr schnell konvergiert, LDP aber langsamer nachzieht, kann ein Router Traffic über einen neuen Next Hop senden, bevor dort die passenden Labels bereitstehen. Das Ergebnis sind kurze oder längere Blackholes. Viele Betreiber nutzen deshalb eine IGP-LDP-Synchronisierung (vendorabhängig), um IGP-Adjazenzen erst als voll nutzbar zu behandeln, wenn LDP bereit ist.

Symptom: Konvergenzzeit im IGP „gut“, aber MPLS-Traffic fällt länger aus.
Impact: Kunden sehen Outage, obwohl Routing „gesund“ wirkt.
Telemetrie: Sync-Status pro Link, IGP adjacency up vs. LDP session up timestamps, LDP label availability per next hop.

Targeted LDP und Remote-Dependencies: Wenn nicht der Link, sondern die Session selbst das Problem ist

Targeted LDP (tLDP) wird häufig für bestimmte Services/Signaling genutzt. Diese Sessions hängen nicht zwingend an direkten Nachbarn, sondern an IP-Reachability. Bei Underlay-Änderungen können tLDP-Sessions instabil werden oder über unerwartete Pfade laufen, was die Wiederherstellung verzögert.

Symptom: Nur bestimmte Services betroffen, obwohl „normale“ LDP-Nachbarn stabil sind.
Impact: Partielle Outages, schwer zu korrelieren ohne Session-Inventar.
Telemetrie: tLDP session list, last flap reason, RTT/keepalive trends, dependency graph (welche Services hängen daran).

RSVP-TE-Grundmechanik: Warum Soft-State in Stresssituationen weh tut

RSVP-TE arbeitet klassisch mit Soft-State: PATH/RESV-State muss regelmäßig erneuert werden, sonst läuft er aus. Das hat Vorteile (robust gegen bestimmte Fehler), aber es erzeugt in großen Netzen eine dauerhafte Refresh-Last und im Störungsfall potenziell eine Signalisierungswelle. Für RSVP-TE ist RFC 3209 eine Kernreferenz, und für die allgemeine RSVP-TE-Architektur ist auch RFC 3473 relevant.

Typische RSVP-TE Failure Modes, die Konvergenz langsam machen

Resignaling-Sturm: Wenn ein Link fällt und tausende LSPs gleichzeitig neu berechnet werden

In TE-Designs können sehr viele LSPs denselben Link oder dieselbe Failure Domain nutzen. Fällt dieser Teil aus, müssen viele LSPs gleichzeitig neu signalisiert werden. Selbst wenn CSPF schnell ist, werden PATH/RESV-Messages massenhaft erzeugt, verarbeitet und programmiert. Das führt häufig zu Control-Plane-Sättigung.

Symptom: Viele TE-Tunnel gehen „down“, „reoptimizing“ oder „re-signaling“ gleichzeitig.
Impact: Wiederherstellung wird durch Rate-Limits und CPU begrenzt, nicht durch reine Pfadexistenz.
Telemetrie: RSVP message rate, CPU/interrupt load, RSVP error codes, tunnel setup time distribution, backlog/queue counters.

Refresh und Timeout: Konvergenz wird vom Ablauf der Soft-State-Timer bestimmt

Wenn keine schnellen Failure-Detektoren (z. B. RSVP Hellos/BFD-Integration, Plattform-spezifische Mechanismen) aktiv sind, kann der Ausfall eines Pfads erst erkannt werden, wenn Soft-State abläuft oder Refreshes fehlschlagen. Das ist operativ besonders unangenehm, weil es zu „komischen“ Zeiten führt: nicht in Millisekunden, sondern in Sekunden bis Minuten.

Symptom: Der Tunnel ist nicht sofort down, sondern degradiert oder „hängt“.
Impact: Kunden sehen längere Unterbrechungen oder instabile Phasen.
Telemetrie: hello loss, refresh failure counters, timeout events, last PATH/RESV timestamps.

Make-before-break und Re-Optimization: Stabilität kostet Zeit

Viele Betreiber nutzen Make-before-break, um Pfadwechsel ohne harte Unterbrechung zu ermöglichen. Das ist grundsätzlich reliability-freundlich, kann aber in Stresssituationen die Signalisierung verlängern: Neue LSPs werden aufgebaut, Ressourcen reserviert, und erst dann wird umgeschwenkt. Bei knapper Bandbreite oder falschen Reservierungsparametern verzögert sich das oder scheitert.

Symptom: Tunnel wechseln langsam oder bleiben in „pending“ Zuständen.
Impact: Konvergenzzeit steigt, obwohl ein alternativer Pfad existiert.
Telemetrie: setup attempts, admission control failures, bandwidth reservation errors, preemption events.

Fast Reroute ist da, aber hilft nicht: Schutzpfad überlastet oder falsch dimensioniert

FRR (Fast Reroute) kann Konvergenz drastisch beschleunigen, wenn lokale Umleitung funktioniert. Dennoch entstehen Outages, wenn der Schutzpfad zwar existiert, aber nicht genug Kapazität hat oder in eine andere Engpasszone führt. Dann ist Failover schnell, die Servicequalität aber schlecht.

Symptom: Sofortige Umschaltung, danach Loss/Jitter/Queue-Drops.
Impact: „Konvergenz“ im Sinne von Reachability ist ok, SLA aber verletzt.
Telemetrie: FRR switch events, post-failover utilization, queue drops, latency inflation, microburst indicators.

Für FRR-Konzepte ist RFC 4090 ein guter Einstieg.

Refresh Reduction nicht aktiv: Dauerlast wird zum Incident-Verstärker

In großen RSVP-TE-Deployments kann die Refresh-Last selbst im Normalbetrieb signifikant sein. Ohne Refresh Reduction werden Periodic Refreshes zu einem konstanten Hintergrundrauschen, das im Incident die Control Plane zusätzlich belastet. Mechanismen zur Reduktion sind standardisiert (je nach Implementierung/Feature-Set).

Symptom: Hohe Grundlast im RSVP-Prozess, im Incident „kippt“ die Plattform schneller.
Impact: Konvergenz verlängert sich, weil Message-Queues wachsen und Scheduling leidet.
Telemetrie: baseline RSVP message rate, CPU headroom, queue depth, refresh reduction status.

Als Referenz für Refresh Reduction dient RFC 2961.

Gemeinsame Failure Patterns: Warum LDP und RSVP im Incident ähnliche Symptome erzeugen

Ob LDP oder RSVP-TE: In beiden Fällen führen bestimmte systemische Muster zu langsamer Konvergenz. Wer diese Muster erkennt, findet Root Causes schneller als mit reinem Protokoll-Debugging.

Control-Plane-Sättigung: CPU/Queueing ist oft der eigentliche Bottleneck, nicht der „fehlende Pfad“.
Mass-Event-Korrelation: Ein einzelner Link-Failure kann tausende LSPs/Labels betreffen, wenn Failure Domains nicht sauber modelliert sind.
Timer-Asymmetrie: Underlay reagiert schneller als MPLS-Control-Plane (oder umgekehrt), was transienten Loss erzeugt.
Rate-Limits und Schutzmechanismen: CoPP/CPPr schützt Router, kann aber Signalisierung im Incident drosseln.
Inkonsistente Abhängigkeiten: IGP sieht gut aus, aber LFIB/RSVP-State ist noch nicht konsistent programmiert.

Schlüssel-Telemetrie: Was Sie erfassen müssen, um „langsam“ zu beweisen

Ohne belastbare Telemetrie bleibt „Konvergenz ist langsam“ eine subjektive Aussage. Provider-Grade-Betrieb benötigt Metriken, die Ursache, Dauer und Scope sichtbar machen.

Underlay-Signale (Pflicht)

Failure-Detektion: Link-down Zeitstempel, BFD events, IGP adjacency down/up Zeiten.
IGP-Churn: SPF-Läufe, LSA/LSP-Rate, Flooding-Dauer, CPU-Spitzen.
Interface-Qualität: Errors, FEC/CRC, Discards, Queue-Drops, Microburst-Indikatoren.

LDP-spezifische Signale

Session-Timeline: neighbor up/down, reason codes, TCP reset causes.
Message-Backlog: LDP message queue depth, processing latency.
Label-Health: missing labels, LIB/LFIB sync status, install backlog.
IGP-LDP Sync: sync state per link (wenn genutzt) und Abweichungen.

RSVP-TE-spezifische Signale

Tunnel Setup Time: Verteilung der Setup-Dauer (Median und Perzentile) statt nur „up/down“.
Message Rate: PATH/RESV/HELLO pro Sekunde, plus error/retry counters.
FRR Events: Umschaltungen, Dauer bis Stabilisierung, betroffene Bandbreite.
Admission Control: reservation failures, preemption events, constraint mismatch.

Operative Guardrails: Wie Sie Konvergenz ohne Risky Tuning verbessern

Die beste Konvergenz ist die, die nicht nur schnell, sondern auch vorhersehbar und stabil ist. Folgende Maßnahmen sind in vielen Netzen risikoarm, wenn sie sauber eingeführt werden:

Failure Domains sichtbar machen: SRLGs und gemeinsame Risiken dokumentieren, damit TE/LDP-Abhängigkeiten nicht unbewusst konzentriert werden.
Timer-Disziplin statt Extrem-Tuning: Detektion (BFD) und Underlay-Dead-Timer konsistent, LDP/RSVP-Timer so wählen, dass sie nicht gegeneinander arbeiten.
IGP-LDP-Synchronisierung: Blackholing reduzieren, indem IGP nicht „zu früh“ Traffic auf Links schiebt, die noch keine Labels haben.
Control-Plane-Headroom: CPU-Reserve planen, CoPP so dimensionieren, dass Schutz wirkt, aber Incident-Signalisierung nicht erstickt.
FRR realistisch testen: Failover im Wartungsfenster verifizieren und die Post-Failover-Kapazität prüfen (nicht nur „Switch hat stattgefunden“).
Refresh Reduction prüfen: RSVP-Grundlast reduzieren, damit im Incident mehr Luft bleibt.
Churn-Monitoring: Metriken für „Label/Tunnel Churn“ alarmieren, bevor Kunden es merken.

Incident-Playbook: Schnelle Einordnung, ob LDP oder RSVP die Konvergenz bremst

Wenn ein Event passiert, hilft eine kurze Entscheidungslogik, um nicht parallel in die falsche Richtung zu debuggen:

Wenn IGP konvergiert, aber MPLS-Traffic blackholed: zuerst LFIB/Label-Availability prüfen (LDP-Sync, missing labels, install backlog).
Wenn viele TE-Tunnel gleichzeitig re-signalisieren: RSVP message rate, admission control failures und CPU/queueing prüfen.
Wenn Failover schnell, aber Loss hoch: Post-Failover-Utilization und Queue-Drops analysieren (Schutzpfad überlastet).
Wenn Outage „minutenlang“ ohne klare Down-Events: Soft-State Timeout/Refresh-Probleme oder Control-Plane-Drops als Verdächtige.
Wenn nur bestimmte Services betroffen: targeted LDP oder bestimmte TE-Policy-Gruppen als Scope eingrenzen.

Outbound-Links für Standards und vertiefende Informationsquellen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.