Fast Reroute (FRR): Topologie so planen, dass Ausfälle kaum spürbar sind

Red Snapper

3 months ago

Fast Reroute (FRR) ist eines der wirkungsvollsten Konzepte im Carrier- und Enterprise-Core, um Ausfälle so abzufangen, dass Nutzer sie kaum bemerken. Während klassische Konvergenz über IGP oder BGP nach einem Link- oder Node-Ausfall oft Sekundenbruchteile bis mehrere Sekunden dauern kann, zielt FRR auf Umschaltzeiten im Bereich von wenigen 10 Millisekunden bis niedrigen 100 Millisekunden – abhängig von Topologie, Hardware, Fehlererkennung und Konfiguration. Entscheidend ist dabei: Fast Reroute ist nicht „nur eine Einstellung“, sondern ein Designprinzip. Ohne passende Topologie, echte Diversität, ausreichenden Headroom und klare Failure Domains bleibt FRR entweder wirkungslos oder erzeugt neue Risiken wie Schleifen, Hotspots oder instabile Flap-Effekte. Wer FRR im Netz einsetzt, muss daher Transportpfade, Schutzpfade, Kapazitätsplanung und Betriebsprozesse gemeinsam denken. Dieser Artikel erklärt FRR verständlich und praxisnah: welche FRR-Varianten es gibt, wie Topologien so gebaut werden, dass Schutzpfade überhaupt existieren, wie Sie Link- und Node-Ausfälle sauber abdecken, und welche Best Practices dafür sorgen, dass Failover schnell und stabil gelingt – ohne spürbare Serviceunterbrechungen.

Was bedeutet Fast Reroute und warum ist es so wichtig?

Fast Reroute beschreibt Mechanismen, bei denen ein Router bei einem Ausfall sofort auf einen vorberechneten oder vordefinierten Schutzpfad umschaltet, ohne auf die vollständige Rekonvergenz der gesamten Routing-Domäne zu warten. Das ist besonders relevant für Echtzeitdienste (Voice, Videokonferenz), Mobile Backhaul, Finanz- und Industriekommunikation sowie für Provider-SLAs, bei denen kurze Unterbrechungen bereits als Störung wahrgenommen werden.

Schutz vor kurzen Ausfällen: Link- oder Node-Ausfälle werden lokal abgefangen, bevor das Netz „neu denkt“.
Weniger Kundenimpact: Paketverlust und Latenzspitzen bleiben gering.
Stabilere Control Plane: Wenn lokal schnell umgeschaltet wird, kann die globale Rekonvergenz ruhiger ablaufen.
Bessere SLA-Fähigkeit: Besonders bei Carrier-Diensten ein zentraler Baustein für Hochverfügbarkeit.

FRR ist nicht gleich Konvergenz: Zwei Phasen im Fehlerfall

In modernen Netzen sind Failover-Prozesse häufig zweistufig. Zuerst greift FRR lokal und schaltet schnell um. Danach findet eine „normale“ Rekonvergenz statt, die den endgültigen stabilen Pfad berechnet und verteilt. Diese Trennung ist wichtig: FRR rettet die Servicekontinuität, während die Rekonvergenz die Topologie dauerhaft wieder in einen optimalen Zustand bringt.

Phase 1 (lokal): Fehlererkennung und Umschaltung auf Schutzpfad (FRR).
Phase 2 (global): IGP/BGP rekonstruiert Pfade, Policies greifen, der neue stabile Zustand etabliert sich.
Ziel: Phase 1 so schnell und stabil wie möglich, Phase 2 so ruhig und kontrolliert wie möglich.

Grundvoraussetzung: Ohne alternative Pfade kein FRR

Der wichtigste FRR-Grundsatz lautet: Schutzpfade entstehen aus Topologie. Wenn es keine zweite physische Route gibt, kann FRR nichts „herbeizaubern“. Deshalb ist das Topologie-Design der erste Schritt: Parallele Pfade, diverse Trassen, klare PoP- und Zonenstruktur und ein bewusstes ECMP-/Metrik-Design schaffen die Grundlage, damit Schutzpfade existieren und sinnvoll genutzt werden können.

Mindestens zwei unabhängige Wege: Nicht nur zwei Links, sondern idealerweise zwei diverse Trassen.
Fehlerdomänen begrenzen: Große Ausfallklassen (PoP, Region, Trasse) getrennt betrachten.
ECMP-fähige Designs: Parallele Pfade erleichtern Lastverteilung und sanfteres Failover.
Kapazitätsreserve: Failover muss N-1-tauglich sein, sonst führt FRR zu Congestion.

Welche FRR-Varianten gibt es?

FRR ist ein Sammelbegriff. Je nach Underlay (IGP, MPLS, Segment Routing) und Ziel (Link-Schutz, Node-Schutz) kommen unterschiedliche Mechanismen zum Einsatz. In Provider-Netzen sind besonders verbreitet: IGP-FRR (z. B. Loop-Free Alternates), MPLS-FRR (z. B. lokale Schutzpfade für LSPs) und Segment-Routing-basierte Schutzkonzepte. Wichtig ist, FRR nicht als isoliertes Feature zu betrachten, sondern als Teil der Transportarchitektur.

IGP-FRR: Lokale Alternativen auf Basis der IGP-Topologie und Metriken.
MPLS-FRR: Schutzmechanismen für labelbasierte Transportpfade, häufig in klassischen IP/MPLS-Netzen.
SR-basierte FRR: Schutzpfade über Segment-Modelle, meist policy- und topology-getrieben.

Link-Schutz vs. Node-Schutz: Die zwei wichtigsten Failure Models

FRR muss klar definieren, welchen Ausfall es abdecken soll. Link-Schutz schützt vor dem Ausfall einer Verbindung. Node-Schutz schützt vor dem Ausfall eines gesamten Routers (oder eines „kritischen Knotens“), was oft anspruchsvoller ist. Ein Link-Schutz kann bei Node-Ausfall wirkungslos sein, wenn der alternative Pfad dennoch über denselben Knoten läuft. Deshalb sollten Provider beide Szenarien bewusst planen.

Link-Schutz: Alternative Pfade vermeiden den defekten Link, können aber denselben Nachbarknoten weiterhin nutzen.
Node-Schutz: Alternative Pfade vermeiden den defekten Knoten vollständig.
Design-Folge: Node-Schutz erfordert oft mehr Topologie-Redundanz und sorgfältigere Metriken.

Fehlererkennung: Warum Detection oft wichtiger ist als die FRR-Mechanik

Die schnellste Umschaltlogik nützt wenig, wenn der Fehler erst spät erkannt wird. In der Praxis setzen sich Konvergenzzeiten aus Fehlererkennung und Umschaltung zusammen. Für „kaum spürbare“ Ausfälle ist daher eine zuverlässige, schnelle Detection entscheidend – gleichzeitig darf sie nicht so aggressiv sein, dass Mikro-Störungen zu ständigen Flaps führen.

Link-Down-Erkennung: Physische Link-Down-Events sind oft am schnellsten und zuverlässigsten.
Path-Erkennung: Störungen ohne Link-Down (z. B. einseitige Probleme) erfordern zusätzliche Mechanismen.
Flap-Resistenz: Hysterese und saubere Schwellenwerte verhindern instabile Umschaltungen.
Wartung: Geplante Arbeiten sollten kontrolliert erfolgen, statt unkontrolliert Flaps zu erzeugen.

Metrik- und ECMP-Design: Schutzpfade gezielt „baubar“ machen

IGP-basierte FRR-Mechanismen hängen stark von der Topologie und den IGP-Metriken ab. Wenn Metriken unstrukturiert sind, kann es passieren, dass es keinen loopfreien Alternativpfad gibt – oder dass der Alternativpfad über unerwünschte Korridore führt. Deshalb ist Metrik-Design ein zentraler FRR-Hebel: Sie müssen Pfade so gestalten, dass sinnvolle Alternativen existieren und die Lastverteilung im Failover-Fall akzeptabel bleibt.

Konsistente Kostenmodelle: Metriken sollten Kapazität und gewünschte Pfade widerspiegeln.
Parallelität fördern: Wo sinnvoll, gleichwertige Pfade schaffen, damit ECMP und FRR robust sind.
Hotspots vermeiden: Schutzpfade dürfen nicht systematisch über Engpässe führen.
Regionale Grenzen: Metro-Instabilität nicht in Core-Pfade „hineinziehen“ – Domain-Trennung hilft.

Kapazitätsplanung: N-1-Headroom ist Voraussetzung für „kaum spürbar“

Ein häufiges Missverständnis lautet: „FRR sorgt schon dafür, dass alles weiterläuft.“ Technisch kann Traffic umgeleitet werden – aber wenn die verbleibenden Links dann überlasten, erleben Nutzer trotzdem Paketverlust, Jitter und Latenzspitzen. Deshalb ist N-1-Planung ein Muss: Die Kapazität muss so dimensioniert sein, dass ein Ausfall keine Congestion-Kaskade auslöst.

N-1 als Standard: Ausfall eines Links oder eines Knotens darf nicht sofort Überlast verursachen.
Hotspot-Szenarien: Failover auf den „nächstbesten“ Pfad kann regionale Engpässe erzeugen – prüfen und testen.
Traffic-Profil: Peak-Zeiten, Events und Growth berücksichtigen, nicht nur Durchschnitt.
QoS-Interaktion: Congestion kann Control-Plane und Echtzeitklassen beeinflussen – Priorisierung muss sauber sein.

QoS und Servicekontinuität: FRR ohne Qualitätsverlust

Viele Telco-Dienste sind SLA-getrieben. FRR muss daher nicht nur „Traffic irgendwie weiterleiten“, sondern möglichst ohne Qualitätsbruch. Das bedeutet: QoS-Klassen müssen auf Schutzpfaden genauso funktionieren wie auf Normalpfaden, und Engpässe müssen kontrolliert behandelt werden. Besonders bei Echtzeitverkehr sind kurze Drops schlimmer als reine Bandbreiteneinbußen.

End-to-End-Klassenmodell: Wenige, klar definierte Klassen, die überall konsistent behandelt werden.
Schutzpfad-QoS: Schutzpfade dürfen nicht „Best Effort“ sein, wenn Echtzeit-SLAs gelten.
Queue-Drops überwachen: Drops pro Klasse im Failover-Fall sind ein zentraler Qualitätsindikator.
Shaping an Übergaben: Engpässe kontrollieren, damit FRR nicht in Bufferbloat endet.

FRR im Multi-Domain Design: Core, Metro und Access sauber trennen

In Carrier-Netzen ist Domain-Trennung ein Stabilitätsbooster. FRR sollte in jeder Domain so umgesetzt werden, dass lokale Störungen lokal bleiben. Beispielsweise kann Metro-Ringschutz lokale Ausfälle schnell abfangen, ohne dass der Core bei jedem kleinen Event rekonvergiert. Der Core wiederum sollte robuste Schutzpfade für große Korridore haben, während Access-Instabilität durch Segmentierung und lokale Redundanz begrenzt wird.

Access: Dual-Uplinks und Segmentierung, damit Feldstörungen nicht großflächig wirken.
Metro: Ring- und Aggregationsschutz, modulare Ringe, klare PoP-Übergaben.
Core: Partial Mesh, diverse Korridore, stabile Metriken, ECMP und Schutzpfade für Node/Link-Ausfälle.

Testen und Messen: FRR ist nur so gut wie seine Validierung

FRR muss in der Realität funktionieren, nicht nur im Diagramm. Best Practice ist, Failover-Szenarien regelmäßig zu testen: Link ziehen, Node isolieren, PoP simulieren, dann Konvergenzzeiten und Servicequalität messen. Entscheidend sind nicht nur „Ping geht“, sondern Latenzspitzen, Paketverlust, Queue-Drops und die Stabilität der Routing-Sessions im Umfeld.

Link-Failover-Tests: Umschaltzeit und Paketverlust messen, idealerweise wiederholt und automatisiert.
Node-Failover-Tests: Prüfen, ob Node-Schutzpfade wirklich node-disjoint sind.
Peak-Zeit-Simulation: Tests unter Last sind aussagekräftiger als Tests im Leerlauf.
Runbooks: Standardisierte Abläufe für Wartungen und Failover-Übungen reduzieren Risiko.

Observability: FRR sichtbar machen, bevor Kunden es merken

Damit Ausfälle „kaum spürbar“ bleiben, müssen Sie FRR-Ereignisse sehen, korrelieren und auswerten. Wenn FRR häufig triggert, ist das ein Warnsignal: Entweder die Physik ist instabil, oder die Topologie/Policies erzeugen unnötige Umschaltungen. Ein professionelles Monitoring umfasst daher Link-Events, Routing-Events, Latenz/Jitter/Loss, Queue-Drops und Kapazitätsauslastung pro Pfad.

Event-Telemetrie: Link-Flaps, Rekonvergenz, FRR-Trigger, Timing und Häufigkeit.
Qualitätsmetriken: Latenz/Jitter/Loss, insbesondere während und nach Failover.
Queue-Drops: Drops pro Klasse als Indikator, ob FRR „qualitativ“ funktioniert.
Traffic-Sicht: Flow-Daten für Hotspots und Failover-Lastverschiebungen.

Typische Stolperfallen bei FRR und wie Sie sie vermeiden

Viele FRR-Probleme sind vorhersehbar: fehlende Diversität, kein Headroom, unklare Metriken, instabile Links und fehlende Tests. Besonders gefährlich ist „scheinbare Redundanz“: zwei Links, gleiche Trasse; oder ein Schutzpfad, der im Node-Ausfall doch über denselben Knoten läuft. Ein robustes Design adressiert diese Risiken proaktiv.

Redundanz ohne Diversität: Korrelierte Ausfälle machen FRR wirkungslos.
Kein N-1-Headroom: Failover erzeugt Congestion, Nutzer merken den Ausfall trotz FRR.
Unsaubere Metriken: Keine loopfreien Alternativen oder Schutzpfade führen über Engpässe.
Flap-Instabilität: Aggressive Detection ohne Hysterese erzeugt ständige Umschaltungen.
Keine Lasttests: FRR „funktioniert“ im Lab, bricht aber unter realer Last qualitativ ein.

Operative Checkliste: Topologie so planen, dass Ausfälle kaum spürbar sind

Diese Checkliste hilft, FRR im Carrier-Netz als Designprinzip umzusetzen – von Topologie über Kapazität bis Betrieb.

Gibt es echte alternative Pfade (link- und möglichst node-disjoint) und ist physische Diversität (Trassen/PoPs) gewährleistet?
Sind Failure Models definiert (Link, Node, PoP, Trasse) und ist klar, welche FRR-Variante was abdeckt?
Sind Metriken konsistent und ist ECMP so geplant, dass sinnvolle Schutzpfade existieren und Hotspots vermieden werden?
Ist N-1-Headroom eingeplant, sodass Failover nicht zu Congestion und Qualitätsverlust führt?
Ist QoS end-to-end konsistent und sind Schutzpfade QoS-seitig gleichwertig zu Normalpfaden?
Ist Fehlererkennung schnell, aber stabil (Hysterese/Flap-Management), und sind Wartungsabläufe kontrolliert?
Werden Failover-Szenarien regelmäßig unter Last getestet und sind Umschaltzeiten sowie Paketverlust messbar dokumentiert?
Ist Observability vollständig (FRR-Trigger, Link-Events, Loss/Latenz/Jitter, Queue-Drops, Flow-Daten) und sind Runbooks etabliert?

Konfiguriere Cisco Router & Switches und liefere ein Packet-Tracer-Lab (CCNA)

Hallo! Ich bin ein CCNA-Network Engineer und unterstütze Sie bei Cisco Router- und Switch-Konfigurationen – inklusive eines vollständigen Cisco Packet-Tracer-Labs (.pkt). Ideal für Lern-/Übungsszenarien, Validierung oder eine saubere Demo-Topologie.

Was ich (je nach Paket) umsetze

Switching: VLANs, Trunking (802.1Q), Port-Zuweisung, STP-Basics (PortFast/BPDU Guard wo sinnvoll)
Routing: Default/Static Routing oder OSPF, Inter-VLAN Routing (Router-on-a-Stick)
Services: DHCP (Pools/Scopes), NAT/PAT für Internet-Simulation
Optional Security: Basic ACLs und SSH-Hardening
Test & Verifikation: Ping/Traceroute + wichtige Show-Commands (mit erwarteten Ergebnissen)

Sie erhalten

✅ Packet Tracer .pkt Datei
✅ Saubere Konfigurations-Notizen pro Gerät
✅ Verifikations-Checkliste + erwartete Outputs
✅ Kurze Dokumentation (wie die Topologie funktioniert)

Bitte schreiben Sie mir vor der Bestellung, damit wir Scope, Packet-Tracer-Version, Geräteanzahl und Deadline klären.

Konfiguriere Cisco Router & Switches | Cisco Packet-Tracer-Labs. Finden Sie mich auf Fiverr.