MPLS L3VPN Troubleshooting: „Customer Isolated“ debuggen (Runbook)

MPLS L3VPN Troubleshooting gehört zu den Standardaufgaben im Provider-NOC – und gleichzeitig zu den frustrierendsten, wenn Kunden melden: „Customer Isolated“. Gemeint ist fast immer dasselbe Symptom: Ein Standort oder eine ganze Kundendomäne ist plötzlich von anderen Sites in derselben VPN nicht mehr erreichbar. Oft wirkt es selektiv (nur eine Richtung, nur bestimmte Prefixes, nur IPv6),…

MPLS Ping & Traceroute: Path validieren ohne Rätselraten

MPLS Ping & Traceroute sind im Provider-Betrieb die zuverlässigsten Werkzeuge, um einen MPLS-Pfad zu validieren, ohne in klassisches „Rätselraten“ mit IP-Traceroute, ECMP-Zufallspfaden oder versteckten MPLS-Hops zu verfallen. Gerade in Backbones mit L3VPNs, Traffic Engineering, Segment Routing oder komplexen ECMP/LAG-Topologien ist ein normales IP-Traceroute oft irreführend: Zwischenrouter antworten nicht (CoPP/Rate-Limits), MPLS TTL wird nicht propagiert, und…

RPKI für ISPs: Implementierung und Risiken, die man einplanen muss

RPKI für ISPs ist heute eines der wirksamsten Mittel, um Route Hijacks und Route Leaks im globalen Routing-Ökosystem zu reduzieren. Gleichzeitig ist RPKI kein „Schalter“, den man umlegt, sondern eine Kombination aus Kryptoinfrastruktur, Datenversorgung (ROAs, VRPs), Validierungslogik und operativen Entscheidungen in BGP-Policies. Wer RPKI implementiert, muss daher zwei Ziele gleichzeitig erreichen: Erstens die Routing-Sicherheit messbar…

LDP vs. SR-MPLS: Operative Auswirkungen und Migrationsabwägungen

LDP vs. SR-MPLS ist für viele Provider keine rein technische Diskussion, sondern eine operative Grundsatzentscheidung: Wie wollen Sie Transportpfade im Backbone aufbauen, überwachen und verändern – und wie viel Komplexität akzeptieren Sie dafür? LDP (Label Distribution Protocol) ist seit Jahren der „Default“ in klassischen MPLS-Backbones: stabil, gut verstanden, breit implementiert. SR-MPLS (Segment Routing mit MPLS-Datenebene)…

Prefix-Filtering-Best-Practices: Hijacks und Leaks verhindern

Prefix-Filtering-Best-Practices sind eine der effektivsten und zugleich unterschätzten Maßnahmen, um Hijacks und Leaks im Internet-Routing zu verhindern. Während BGP technisch „nur“ Routen verteilt, entscheidet Ihre Policy darüber, welche Routen Sie akzeptieren, welche Sie weitergeben und welche Sie konsequent blockieren. Genau hier passieren die gefährlichsten Fehler: Ein Kunde kündigt versehentlich Transit-Routen an (Route Leak), ein falsches…

Segment Routing (SR-MPLS): Failure Modes, die Ops beherrschen müssen

Segment Routing (SR-MPLS) wird oft als „weniger Protokolle, weniger Probleme“ verkauft: Kein klassisches LDP, weniger Signalisierung, klarere Pfadsteuerung. Operativ stimmt das teilweise – aber nur, wenn Operations-Teams die Failure Modes von SR-MPLS wirklich beherrschen. Denn SR verschiebt die Komplexität: weg von LDP-Nachbarschaften hin zu SID-Planung, IGP-Extensions, Policy-Logik, Label-Stacks, FRR-Mechaniken (z. B. TI-LFA) und der Frage,…

Anycast DNS im ISP: Design, Monitoring und Failure Modes

Anycast DNS im ISP ist eine der wirkungsvollsten Architekturen, um Resolver- und Authoritative-DNS-Dienste gleichzeitig schneller, robuster und besser skalierbar zu machen. Das Grundprinzip ist einfach: Mehrere DNS-Server in unterschiedlichen PoPs (Points of Presence) announcen dieselbe IP-Adresse per Routing (typischerweise BGP), und der Netzwerkpfad entscheidet, welcher Standort die Anfrage beantwortet. Genau diese Einfachheit ist jedoch auch…

SR-TE: Wann fürs Traffic Engineering und SLA einsetzen

SR-TE (Segment Routing Traffic Engineering) ist für viele Provider der nächste logische Schritt, wenn klassische TE-Mechanismen (IGP-Metriken, LocalPref, AS-PATH Prepending, ECMP) nicht mehr ausreichen, um Traffic planbar zu steuern und SLA-Ziele nachweisbar einzuhalten. Der operative Reiz von SR-TE liegt darin, dass Sie Pfade als „Intent“ ausdrücken können: Traffic soll nicht einfach „irgendwie den kürzesten Weg“…

Backbone-Convergence-Time: Messen und Downtime reduzieren

Backbone-Convergence-Time ist eine der wichtigsten, aber oft am schlechtesten gemessenen Größen im ISP-Betrieb. Sie beschreibt, wie lange Ihr Backbone nach einem Ereignis (Link-Fail, Node-Fail, LAG-Member-Ausfall, Control-Plane-Reset, Wartungsaktion) braucht, bis die Weiterleitung wieder stabil und korrekt ist – also bis Traffic ohne nennenswerten Verlust oder unerwartete Umwege läuft. In der Praxis ist „Konvergenz“ nicht gleich „IGP…

FRR in MPLS/SR: Auswirkungen auf Loss und Jitter messen

FRR in MPLS/SR (Fast Reroute) ist für Provider-Backbones eine der wichtigsten Techniken, um bei Link- oder Node-Fails die Verkehrsunterbrechung zu minimieren. Operativ zählt FRR jedoch nicht nur als „schnelles Failover“, sondern als messbarer Einflussfaktor auf Loss und Jitter. Genau hier passieren in der Praxis die meisten Missverständnisse: FRR ist aktiv, trotzdem melden Kunden kurze Paketverluste;…