FRR in MPLS/SR: Auswirkungen auf Loss und Jitter messen

Red Snapper

1 month ago

FRR in MPLS/SR (Fast Reroute) ist für Provider-Backbones eine der wichtigsten Techniken, um bei Link- oder Node-Fails die Verkehrsunterbrechung zu minimieren. Operativ zählt FRR jedoch nicht nur als „schnelles Failover“, sondern als messbarer Einflussfaktor auf Loss und Jitter. Genau hier passieren in der Praxis die meisten Missverständnisse: FRR ist aktiv, trotzdem melden Kunden kurze Paketverluste; VoIP- oder Mobile-Backhaul-SLAs reißen bei Umschaltungen; oder nach einem Failover bleibt der Pfad zwar erreichbar, aber die Latenz schwankt massiv, weil der Repair-Pfad über längere Strecken oder über congested Segmente führt. Um FRR in MPLS/SR zuverlässig zu betreiben, reicht es daher nicht, Feature-Flags zu setzen. Operations-Teams müssen wissen, wie FRR technisch greift (BFD, LFA, RSVP-TE FRR, TI-LFA), welche typischen Transienten entstehen (Microbursts, Reordering, Queue-Drops) und vor allem: wie man Loss und Jitter so misst, dass Ergebnisse SLA-tauglich sind. Dieser Artikel erklärt praxisnah, wie Sie FRR-Auswirkungen in MPLS und Segment Routing (SR-MPLS) erfassen: Messmethoden, Metriken, typische Fehlerquellen, Auswertelogik und eine Checkliste für Tests im Change Window sowie für regelmäßige DR/Resilience-Drills.

Was FRR in MPLS/SR leisten soll und was nicht

FRR ist eine Schutztechnik, die bei einem Failure (Link/Node) einen lokalen Repair-Pfad aktiviert, bevor die vollständige IGP/BGP-Konvergenz abgeschlossen ist. Ziel ist „minimaler Traffic Impact“. Wichtig ist aber die Abgrenzung:

FRR reduziert das Impact-Fenster (typisch Millisekunden bis wenige hundert Millisekunden), eliminiert es aber nicht automatisch.
FRR garantiert keine Performance-Parität zum primären Pfad: Der Repair-Pfad kann längere Latenz haben, mehr Jitter erzeugen oder weniger Headroom besitzen.
FRR schützt nicht vor Congestion: Wenn der Backup-Pfad voll ist, sehen Kunden trotz „erfolgreichem Failover“ Loss.

Als technische Basis sind BFD (RFC 5880) und Loop-Free Alternates (RFC 5286) häufige Bausteine. Für MPLS RSVP-TE FRR ist RFC 4090 relevant.

FRR-Varianten im Backbone und ihre typischen Messimplikationen

Die Messstrategie hängt davon ab, welche FRR-Variante Sie einsetzen. Im Alltag sind drei Klassen verbreitet:

IGP-FRR (LFA / Remote LFA): schnelle lokale Umleitung, häufig im IP- und SR-Kontext genutzt; Impact stark abhängig von Topologie und Coverage.
MPLS-TE FRR (RSVP-TE Fast Reroute): detour/bypass-Mechanismen; häufig sehr gut steuerbar, aber mit zusätzlicher Signalisierung.
SR-FRR (z. B. TI-LFA in SR-MPLS): schnelle Reparaturpfade in SR-Designs; operativ stark von Policy-/SID-Plan und Plattformdetails abhängig.

Segment Routing Architektur und SR-MPLS sind in RFC 8402 und RFC 8660 beschrieben. Unabhängig vom Flavor ist die zentrale Ops-Frage: Wie groß ist das tatsächliche Loss- und Jitter-Fenster während Detection, Umschaltung und Stabilisierung?

Warum FRR trotz „ms-Failover“ Loss und Jitter erzeugt

Es gibt wiederkehrende Mechanismen, die FRR-Transienten verursachen. Diese sind entscheidend, weil sie die Messwerte erklären.

Mechanismus 1: Failure Detection ist nicht instant

FRR kann erst greifen, wenn ein Failure erkannt wurde. Je nach Signalquelle (Link-Down, BFD, IGP Hello-Timeout) ist die Detection-Zeit unterschiedlich. Bei BFD hängen Detection-Zeiten von Intervallen und Multipliern ab.

BFD Detection-Zeit (vereinfachte Formel, MathML)

T_detect ≈ interval × multiplier

Kurze Detection-Zeiten sind gut für Verfügbarkeit, können aber bei instabilen Links „Noise“ erzeugen (False Positives). Genau deshalb muss FRR-Messung immer die gewählten Detection-Parameter dokumentieren.

Mechanismus 2: Umschaltung erzeugt Microbursts und Queue-Drops

Wenn Traffic plötzlich auf einen anderen Pfad „kippt“, entstehen Microbursts. Selbst wenn die Durchschnittsauslastung niedrig ist, können kurze Peaks Buffer füllen und Pakete droppen. Das zeigt sich als kurzer, harter Loss-Impuls – typischerweise im Bereich von wenigen bis einigen Dutzend Millisekunden, abhängig von Buffering und Rate-Limits.

Mechanismus 3: Reordering und Jitter durch Pfadlängenwechsel

Der Repair-Pfad kann deutlich andere Latenz haben. Bei UDP/Echtzeitdiensten wirkt das als Jitter-Spike. Bei TCP kann Reordering Retransmissions triggern, die wiederum Jitter auf Applikationsebene verstärken.

Mechanismus 4: Coverage-Lücken und „Teil-FRR“

FRR ist nicht immer für alle Failure-Szenarien verfügbar (z. B. Node-Protection vs. Link-Protection). Wenn die Coverage nicht vollständig ist, sehen manche Links „sauberes“ Failover, andere verursachen größere Impact-Fenster. Deshalb ist FRR-Messung ohne Coverage-Reporting unvollständig.

Messziele definieren: Welche Kennzahlen für Loss und Jitter SLA-tauglich sind

Damit Messungen im Provider-Maßstab vergleichbar sind, brauchen Sie definierte Kennzahlen. Für FRR haben sich diese Metriken bewährt:

Time to Detect (TTD): Zeit von Failure-Ereignis bis zur Erkennung (z. B. BFD down).
Time to Reroute (TTR): Zeit von Erkennung bis aktivem Forwarding über Repair-Pfad.
Loss Burst: Anzahl verlorener Pakete oder Verlustdauer während des Umschaltfensters.
Jitter Spike: maximale Abweichung der Paketlaufzeit während und nach Umschaltung.
Time to Stabilize (TTS): Zeit bis Latenz und Loss wieder im Normalband liegen (z. B. p95 innerhalb Baseline).

Loss Rate über ein Messfenster (MathML)

LossRate = Packets_lost Packets_sent

Jitter als Delay-Variation (vereinfachte Sicht, MathML)

Jitter ≈ |Delay_i − Delay_i-1|

Als Hintergrund zu „IP Packet Delay Variation“ ist RFC 3393 nützlich. Wichtig ist: In Ops-Reports sollten Sie Jitter nicht nur als Durchschnitt ausweisen, sondern als Spike- und Perzentilwerte (z. B. max, p95, p99) rund um Failover-Events.

Messmethoden im Provider-Maßstab

Für FRR-Auswirkungen gibt es nicht die eine Messmethode. Gute Praxis ist eine Kombination aus aktiven Probes, passiver Telemetrie und Ereigniskorrelation.

Aktive Messung: Synthetische Probes für Loss und Jitter

Aktive Probes liefern eine end-to-end Sicht, die SLA-nah ist. Im Backbone-Betrieb sind diese Verfahren verbreitet:

TWAMP: standardisiertes Verfahren zur Messung von Delay/Loss, besonders für Provider-Tests geeignet (RFC 5357).
UDP Probing mit Sequenznummern: ermöglicht Loss-Bursts und Jitter-Spikes sehr präzise zu sehen.
ICMP/TCP Probes: hilfreich für Reachability, aber oft weniger präzise für Jitter und Burst-Loss.

Für FRR-Tests ist entscheidend, die Probe-Frequenz zu erhöhen. Wenn Sie nur alle 1 Sekunde messen, können Sie ein 50-ms-Impact-Fenster vollständig verpassen. Für Failover-Charakterisierung sind typischerweise Messintervalle im Bereich von 10–50 ms sinnvoll, abhängig von Tooling und Last.

Passive Messung: Interface/Queue Telemetrie und Counters

Loss während FRR ist oft Queue-Loss. Daher sollten Sie parallel messen:

Per-Queue Drops: Tail Drops, WRED/ECN-Indizien (falls aktiv), Buffer occupancy.
Per-LAG-Member Drops/Errors: Partial Failures können FRR-Events triggern oder den Repair-Pfad schwächen.
Microburst-Sicht: möglichst hochauflösende Counter (sub-second), da 5-Minuten-Averages kaum aussagekräftig sind.

Ereigniskorrelation: FRR-Messung ohne Timeline ist wertlos

Um Loss/Jitter sauber FRR zuzuordnen, müssen Sie die Event-Timeline erfassen:

Failure Event: Link down, BFD down, IGP adjacency down.
FRR Activation: Zeitpunkt, an dem Repair Path aktiv wurde (je nach Plattform sichtbar als Log/Event/Counter).
Konvergenz-Ende: Zeitpunkt, an dem normaler Pfad/Neuberechnung stabil ist (post-convergence).

Ohne diese Timeline ist nicht klar, ob ein Jitter-Spike durch FRR, durch Congestion oder durch einen unabhängigen Incident verursacht wurde.

Testdesign: So messen Sie FRR reproduzierbar

Eine FRR-Messung ist nur dann belastbar, wenn sie reproduzierbar ist. Das erfordert standardisierte Testszenarien.

Szenario 1: Link-Protection Test

Was: gezieltes Abschalten eines Links (administrativ), der FRR auslösen soll.
Warum: Link-Protection ist meist einfacher als Node-Protection und liefert stabile Baselines.
Messziel: Loss Burst und Jitter Spike während Umschaltung, plus Stabilisierung.

Szenario 2: Node-Protection Test

Was: simuliertes Node-Failure (z. B. Interface-Bundle down, Linecard reset, kontrollierter Node-Drain).
Warum: Node-Failures sind operativ realistisch, aber Coverage ist oft schlechter.
Messziel: Coverage-Lücken erkennen, Worst-Case Loss/Jitter quantifizieren.

Szenario 3: Congested Backup Path Test

Was: FRR auslösen, während der Backup-Pfad bereits eine definierte Grundlast trägt.
Warum: SLAs scheitern häufig nicht am Failover, sondern an fehlendem Headroom auf dem Repair-Pfad.
Messziel: Nachweis, ob FRR zwar „funktioniert“, aber SLA verletzt (Loss/Jitter durch Queueing).

Szenario 4: ECMP/Hash-Sensitivität

Wenn Ihr Backbone ECMP nutzt, sind Effekte selektiv. Ein einzelner Probe-Flow kann zufällig „glücklich“ laufen. Daher sollten Sie Multi-Flow-Probing einsetzen (verschiedene 5-Tuples), um mehrere Hash-Buckets zu treffen.

Wahrscheinlichkeit, einen „schlechten“ Pfad zu treffen (Intuition, MathML)

P(hit_bad_path) = k N

Wenn es N gleichwertige Pfade gibt und k davon sind degradiert oder congested, ist die Trefferwahrscheinlichkeit für einen einzelnen Flow k/N. Multi-Flow-Probing erhöht die Sichtbarkeit erheblich.

Typische Messfehler und wie Sie sie vermeiden

Zu grobe Messintervalle: 1s-Probes übersehen 50-ms-Events. Für FRR braucht es höhere Frequenzen.
Nur ICMP verwenden: ICMP kann gerate-limited sein und ist für Jitter-Spikes weniger aussagekräftig als UDP/TWAMP.
Nur eine Messrichtung: Asymmetrische Pfade können Jitter/Loss nur in eine Richtung zeigen; immer bidirektional messen.
Keine Lastbedingung: Tests im „leeren Netz“ unterschätzen den Worst Case; Backup-Pfade müssen unter realistischer Last geprüft werden.
Keine Queue-Telemetrie: Loss wird dann fälschlich als „Routing-Bug“ interpretiert, obwohl es Buffer-/Congestion-Loss ist.

Interpretation: Was bedeuten Loss- und Jitter-Ergebnisse für SLA und Betrieb?

Die Interpretation hängt stark von Ihrer SLA-Formulierung ab. Operativ sollten Sie mindestens zwei Ebenen trennen:

Transport-Engineering Sicht: Wie groß ist das Umschaltfenster und ist es für die Zielservices akzeptabel?
SLA/Customer Sicht: Überschreitet der Jitter-Spike oder Loss-Burst definierte Schwellen (z. B. VoIP MOS, Mobile Backhaul Timing, Business-Latenz)?

Viele SLAs tolerieren kurze Transienten, aber nur bis zu einem Grenzwert. Deshalb sind „max Loss Burst“ und „max Jitter Spike“ oft wichtiger als Monatsmittelwerte.

Mitigation: Wie Sie FRR-Auswirkungen auf Loss und Jitter reduzieren

Headroom-Planung für Backup-Pfade: FRR ist nur so gut wie die Kapazität des Repair-Pfads. N-1-Planung muss auch für SR/TE-Policies gelten.
QoS auf Repair-Pfaden prüfen: wenn Premium-Traffic bei Failover in Default-Queues landet, steigen Jitter und Loss.
Microburst-Resilienz: Buffering, Queue-Design und Telemetrie müssen Microbursts sichtbar machen.
FRR-Coverage messen und schließen: Coverage-Lücken gezielt durch Topologie-/Metrik-Design oder zusätzliche Pfade reduzieren.
Graceful Maintenance: bei geplanten Arbeiten drainen statt hart failen, um Bursts durch schlagartige Shifts zu minimieren.

Ops-Checkliste: FRR in MPLS/SR messen und operationalisieren

Messplan definiert: Link- und Node-Failure-Szenarien, beide Richtungen, Multi-Flow falls ECMP.
Probing-Frequenz geeignet: schnell genug, um ms-Events zu sehen (nicht nur Sekundenauflösung).
Telemetrie aktiv: per-queue Drops, per-link/per-member Health, hochauflösende Counter.
Timeline gesichert: Failure, Detection (BFD/Adj down), FRR Activation, Stabilisierung.
Baseline vorhanden: Normal-Latenz/Jitter vor dem Event, damit „Spikes“ quantifizierbar sind.
SLA-Regeln übersetzt: technische Metriken (p95/p99, max Spike) in SLA-Kriterien abbilden.
Stop-Kriterien im Drill: wenn Loss/Jitter über Grenzwert, Test abbrechen und Ursache priorisieren.

Outbound-Ressourcen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.