FRR in MPLS/SR: Auswirkungen auf Loss und Jitter messen

FRR in MPLS/SR (Fast Reroute) ist für Provider-Backbones eine der wichtigsten Techniken, um bei Link- oder Node-Fails die Verkehrsunterbrechung zu minimieren. Operativ zählt FRR jedoch nicht nur als „schnelles Failover“, sondern als messbarer Einflussfaktor auf Loss und Jitter. Genau hier passieren in der Praxis die meisten Missverständnisse: FRR ist aktiv, trotzdem melden Kunden kurze Paketverluste;…

BFD für schnelle Failure Detection: Wann hilfreich – wann nur Noise

BFD für schnelle Failure Detection ist in Provider- und Datacenter-Netzen ein bewährtes Werkzeug, um Ausfälle innerhalb von Millisekunden bis wenigen Sekunden zu erkennen – deutlich schneller als klassische IGP- oder BGP-Timer. Gleichzeitig gilt: Je aggressiver Sie BFD konfigurieren, desto größer ist das Risiko, dass Sie nicht echte Ausfälle erkennen, sondern „Noise“ produzieren: False Positives durch…

ECMP im Backbone: Warum nur einige Kunden betroffen sind

ECMP im Backbone (Equal-Cost Multipath) ist ein zentraler Baustein moderner ISP-Architekturen: Mehrere gleichwertige Pfade werden gleichzeitig genutzt, um Kapazität zu bündeln, Ausfallsicherheit zu erhöhen und Traffic gleichmäßiger zu verteilen. Operativ führt ECMP jedoch zu einem typischen, frustrierenden Fehlerbild: Bei einem Incident sind „nur einige Kunden betroffen“, während andere scheinbar problemlos weiterarbeiten. Genau das ist kein…

Asymmetrisches Routing am Edge: Auswirkungen auf Firewall/CGNAT

Asymmetrisches Routing am Edge ist eines der häufigsten „mysteriösen“ Problemfelder in Provider-Netzen – vor allem dann, wenn am Netzrand stateful Systeme stehen: Firewalls, CGNAT, Carrier-Grade-Load-Balancer, DPI oder Security-Gateways. Der Kern des Problems ist einfach: Hinweg und Rückweg eines Flows nehmen unterschiedliche Pfade. Für reines IP-Forwarding ist das oft unkritisch. Für stateful Systeme ist es dagegen…

Blackhole Routing: Nachweis-Techniken im Provider-Maßstab

Blackhole Routing ist im Provider-Betrieb ein Sammelbegriff für ein besonders unangenehmes Fehlerbild: Pakete werden gesendet, aber verschwinden irgendwo im Netz – ohne dass sofort klar ist, wo und warum. Dabei kann „Blackhole“ vieles bedeuten: ein bewusstes Blackhole (z. B. DDoS-Blackholing per BGP Community), ein unbeabsichtigtes Blackhole durch falsche Routing-Policy, ein Next-Hop-Problem, ein MTU/PMTUD-Knick, ein ECMP-Teilpfad…

Peering am Internet Exchange (IX): Operative Pitfalls und Checkliste

Peering am Internet Exchange (IX) ist für ISPs, Content-Anbieter und Cloud-Netze eine der effizientesten Methoden, um Latenz zu senken, Transitkosten zu reduzieren und Traffic lokal zu halten. Gleichzeitig ist IX-Peering eine typische Quelle für operative Überraschungen: Die physische Verbindung ist „up“, der BGP-Session-Status scheint stabil – und trotzdem melden nur bestimmte Ziele Paketverlust, IPv6 funktioniert…

BGP-Monitoring: Sessions, Prefixes und Anomaly Detection

BGP-Monitoring ist für Provider, Carrier und größere Enterprise-Netze eine Kernfunktion, weil BGP nicht nur „ein Routing-Protokoll“ ist, sondern die Verkehrslenkung, Verfügbarkeit und Stabilität vieler Dienste bestimmt. In der Praxis scheitern Incidents selten daran, dass BGP „komplett ausfällt“, sondern daran, dass sich das Routing schleichend verändert: Sessions flappen sporadisch, Prefixes fehlen nach einem Policy-Change, ein Route…

Graceful Shutdown: Sichere Maintenance ohne Traffic Drops

Graceful Shutdown ist eine der zuverlässigsten Methoden, um geplante Maintenance im Provider- und Data-Center-Betrieb durchzuführen, ohne Traffic Drops zu erzeugen. Die Idee ist einfach: Bevor ein Router, Switch, Firewall-Cluster oder eine Service-Instanz offline geht, wird sie so „entkoppelt“, dass neuer Traffic kontrolliert aus dem Knoten herausgelenkt wird, während bestehende Flows sauber auslaufen (Drain). In der…

EVPN Change-Validation-Checkliste: Minimaltests vor „All Clear“

Eine EVPN Change-Validation-Checkliste ist der Unterschied zwischen „Change fertig“ und „Change wirklich sicher“. In EVPN/VXLAN-Fabrics sind viele Fehler nicht sofort sichtbar: BGP EVPN kann „up“ sein, während Route Targets falsch importiert werden; Underlay kann grün wirken, während MTU/PMTUD pfadspezifisch dropt; Multihoming kann nominal aktiv sein, aber DF-Wahl flapped erst beim nächsten Failover; und ARP/ND-Suppression kann…

L2-Loops im Access Network: Früherkennung und Response-Plan

L2-Loops im Access Network gehören zu den schnellsten und zerstörerischsten Störungsursachen in Layer-2-dominierten Provider- und Enterprise-Umgebungen: Innerhalb von Sekunden kann ein einziger Loop an einem Kundenport oder in einem Access-Switch eine komplette Broadcast-Domain überfluten, MAC-Tabellen in der Aggregation füllen, Uplinks sättigen und dadurch dutzende oder hunderte Services gleichzeitig beeinträchtigen. Das Problem ist dabei nicht nur…