Backbone-Convergence-Time: Messen und Downtime reduzieren

Backbone-Convergence-Time ist eine der wichtigsten, aber oft am schlechtesten gemessenen Größen im ISP-Betrieb. Sie beschreibt, wie lange Ihr Backbone nach einem Ereignis (Link-Fail, Node-Fail, LAG-Member-Ausfall, Control-Plane-Reset, Wartungsaktion) braucht, bis die Weiterleitung wieder stabil und korrekt ist – also bis Traffic ohne nennenswerten Verlust oder unerwartete Umwege läuft. In der Praxis ist „Konvergenz“ nicht gleich „IGP…

FRR in MPLS/SR: Auswirkungen auf Loss und Jitter messen

FRR in MPLS/SR (Fast Reroute) ist für Provider-Backbones eine der wichtigsten Techniken, um bei Link- oder Node-Fails die Verkehrsunterbrechung zu minimieren. Operativ zählt FRR jedoch nicht nur als „schnelles Failover“, sondern als messbarer Einflussfaktor auf Loss und Jitter. Genau hier passieren in der Praxis die meisten Missverständnisse: FRR ist aktiv, trotzdem melden Kunden kurze Paketverluste;…

BFD für schnelle Failure Detection: Wann hilfreich – wann nur Noise

BFD für schnelle Failure Detection ist in Provider- und Datacenter-Netzen ein bewährtes Werkzeug, um Ausfälle innerhalb von Millisekunden bis wenigen Sekunden zu erkennen – deutlich schneller als klassische IGP- oder BGP-Timer. Gleichzeitig gilt: Je aggressiver Sie BFD konfigurieren, desto größer ist das Risiko, dass Sie nicht echte Ausfälle erkennen, sondern „Noise“ produzieren: False Positives durch…

ECMP im Backbone: Warum nur einige Kunden betroffen sind

ECMP im Backbone (Equal-Cost Multipath) ist ein zentraler Baustein moderner ISP-Architekturen: Mehrere gleichwertige Pfade werden gleichzeitig genutzt, um Kapazität zu bündeln, Ausfallsicherheit zu erhöhen und Traffic gleichmäßiger zu verteilen. Operativ führt ECMP jedoch zu einem typischen, frustrierenden Fehlerbild: Bei einem Incident sind „nur einige Kunden betroffen“, während andere scheinbar problemlos weiterarbeiten. Genau das ist kein…

Asymmetrisches Routing am Edge: Auswirkungen auf Firewall/CGNAT

Asymmetrisches Routing am Edge ist eines der häufigsten „mysteriösen“ Problemfelder in Provider-Netzen – vor allem dann, wenn am Netzrand stateful Systeme stehen: Firewalls, CGNAT, Carrier-Grade-Load-Balancer, DPI oder Security-Gateways. Der Kern des Problems ist einfach: Hinweg und Rückweg eines Flows nehmen unterschiedliche Pfade. Für reines IP-Forwarding ist das oft unkritisch. Für stateful Systeme ist es dagegen…

Blackhole Routing: Nachweis-Techniken im Provider-Maßstab

Blackhole Routing ist im Provider-Betrieb ein Sammelbegriff für ein besonders unangenehmes Fehlerbild: Pakete werden gesendet, aber verschwinden irgendwo im Netz – ohne dass sofort klar ist, wo und warum. Dabei kann „Blackhole“ vieles bedeuten: ein bewusstes Blackhole (z. B. DDoS-Blackholing per BGP Community), ein unbeabsichtigtes Blackhole durch falsche Routing-Policy, ein Next-Hop-Problem, ein MTU/PMTUD-Knick, ein ECMP-Teilpfad…

Peering am Internet Exchange (IX): Operative Pitfalls und Checkliste

Peering am Internet Exchange (IX) ist für ISPs, Content-Anbieter und Cloud-Netze eine der effizientesten Methoden, um Latenz zu senken, Transitkosten zu reduzieren und Traffic lokal zu halten. Gleichzeitig ist IX-Peering eine typische Quelle für operative Überraschungen: Die physische Verbindung ist „up“, der BGP-Session-Status scheint stabil – und trotzdem melden nur bestimmte Ziele Paketverlust, IPv6 funktioniert…

BGP-Monitoring: Sessions, Prefixes und Anomaly Detection

BGP-Monitoring ist für Provider, Carrier und größere Enterprise-Netze eine Kernfunktion, weil BGP nicht nur „ein Routing-Protokoll“ ist, sondern die Verkehrslenkung, Verfügbarkeit und Stabilität vieler Dienste bestimmt. In der Praxis scheitern Incidents selten daran, dass BGP „komplett ausfällt“, sondern daran, dass sich das Routing schleichend verändert: Sessions flappen sporadisch, Prefixes fehlen nach einem Policy-Change, ein Route…

RCA „Blackhole“ im Overlay: Mit Telemetrie beweisen

Ein RCA „Blackhole“ im Overlay zu schreiben ist anspruchsvoller als ein klassisches „Link down“-Postmortem, weil die sichtbaren Symptome oft nicht zur eigentlichen Ursache passen. In EVPN/VXLAN- und ähnlichen Overlay-Fabrics kann der Underlay vollständig „grün“ sein (VTEP-Reachability stabil, BGP-Sessions up), während einzelne Flows oder ganze Segmente trotzdem im Nirgendwo verschwinden. Genau das ist ein Blackhole: Pakete…

EVPN Change-Validation-Checkliste: Minimaltests vor „All Clear“

Eine EVPN Change-Validation-Checkliste ist der Unterschied zwischen „Change fertig“ und „Change wirklich sicher“. In EVPN/VXLAN-Fabrics sind viele Fehler nicht sofort sichtbar: BGP EVPN kann „up“ sein, während Route Targets falsch importiert werden; Underlay kann grün wirken, während MTU/PMTUD pfadspezifisch dropt; Multihoming kann nominal aktiv sein, aber DF-Wahl flapped erst beim nächsten Failover; und ARP/ND-Suppression kann…