BFD für schnelle Failure Detection: Wann hilfreich – wann nur Noise

BFD für schnelle Failure Detection ist in Provider- und Datacenter-Netzen ein bewährtes Werkzeug, um Ausfälle innerhalb von Millisekunden bis wenigen Sekunden zu erkennen – deutlich schneller als klassische IGP- oder BGP-Timer. Gleichzeitig gilt: Je aggressiver Sie BFD konfigurieren, desto größer ist das Risiko, dass Sie nicht echte Ausfälle erkennen, sondern „Noise“ produzieren: False Positives durch…

ECMP im Backbone: Warum nur einige Kunden betroffen sind

ECMP im Backbone (Equal-Cost Multipath) ist ein zentraler Baustein moderner ISP-Architekturen: Mehrere gleichwertige Pfade werden gleichzeitig genutzt, um Kapazität zu bündeln, Ausfallsicherheit zu erhöhen und Traffic gleichmäßiger zu verteilen. Operativ führt ECMP jedoch zu einem typischen, frustrierenden Fehlerbild: Bei einem Incident sind „nur einige Kunden betroffen“, während andere scheinbar problemlos weiterarbeiten. Genau das ist kein…

Asymmetrisches Routing am Edge: Auswirkungen auf Firewall/CGNAT

Asymmetrisches Routing am Edge ist eines der häufigsten „mysteriösen“ Problemfelder in Provider-Netzen – vor allem dann, wenn am Netzrand stateful Systeme stehen: Firewalls, CGNAT, Carrier-Grade-Load-Balancer, DPI oder Security-Gateways. Der Kern des Problems ist einfach: Hinweg und Rückweg eines Flows nehmen unterschiedliche Pfade. Für reines IP-Forwarding ist das oft unkritisch. Für stateful Systeme ist es dagegen…

Blackhole Routing: Nachweis-Techniken im Provider-Maßstab

Blackhole Routing ist im Provider-Betrieb ein Sammelbegriff für ein besonders unangenehmes Fehlerbild: Pakete werden gesendet, aber verschwinden irgendwo im Netz – ohne dass sofort klar ist, wo und warum. Dabei kann „Blackhole“ vieles bedeuten: ein bewusstes Blackhole (z. B. DDoS-Blackholing per BGP Community), ein unbeabsichtigtes Blackhole durch falsche Routing-Policy, ein Next-Hop-Problem, ein MTU/PMTUD-Knick, ein ECMP-Teilpfad…

Peering am Internet Exchange (IX): Operative Pitfalls und Checkliste

Peering am Internet Exchange (IX) ist für ISPs, Content-Anbieter und Cloud-Netze eine der effizientesten Methoden, um Latenz zu senken, Transitkosten zu reduzieren und Traffic lokal zu halten. Gleichzeitig ist IX-Peering eine typische Quelle für operative Überraschungen: Die physische Verbindung ist „up“, der BGP-Session-Status scheint stabil – und trotzdem melden nur bestimmte Ziele Paketverlust, IPv6 funktioniert…

BGP-Monitoring: Sessions, Prefixes und Anomaly Detection

BGP-Monitoring ist für Provider, Carrier und größere Enterprise-Netze eine Kernfunktion, weil BGP nicht nur „ein Routing-Protokoll“ ist, sondern die Verkehrslenkung, Verfügbarkeit und Stabilität vieler Dienste bestimmt. In der Praxis scheitern Incidents selten daran, dass BGP „komplett ausfällt“, sondern daran, dass sich das Routing schleichend verändert: Sessions flappen sporadisch, Prefixes fehlen nach einem Policy-Change, ein Route…

Graceful Shutdown: Sichere Maintenance ohne Traffic Drops

Graceful Shutdown ist eine der zuverlässigsten Methoden, um geplante Maintenance im Provider- und Data-Center-Betrieb durchzuführen, ohne Traffic Drops zu erzeugen. Die Idee ist einfach: Bevor ein Router, Switch, Firewall-Cluster oder eine Service-Instanz offline geht, wird sie so „entkoppelt“, dass neuer Traffic kontrolliert aus dem Knoten herausgelenkt wird, während bestehende Flows sauber auslaufen (Drain). In der…

Traffic Engineering Basics für ISPs: Pfade per Policy steuern

Traffic Engineering Basics für ISPs bedeutet, Netzwerkpfade nicht dem Zufall zu überlassen, sondern sie gezielt per Policy zu steuern. In Provider-Netzen entscheidet die Pfadwahl darüber, ob Latenz stabil bleibt, ob Peering-Links überlasten, ob Kunden bei Störungen „nur ein bisschen langsamer“ sind oder komplett ausfallen – und ob Sie teuren Transit vermeiden können, ohne neue Risiken…

L2-Loops im Access Network: Früherkennung und Response-Plan

L2-Loops im Access Network gehören zu den schnellsten und zerstörerischsten Störungsursachen in Layer-2-dominierten Provider- und Enterprise-Umgebungen: Innerhalb von Sekunden kann ein einziger Loop an einem Kundenport oder in einem Access-Switch eine komplette Broadcast-Domain überfluten, MAC-Tabellen in der Aggregation füllen, Uplinks sättigen und dadurch dutzende oder hunderte Services gleichzeitig beeinträchtigen. Das Problem ist dabei nicht nur…

IS-IS vs. OSPF fürs ISP-Backbone: Operativer Vergleich und Konvergenz

Der operative Vergleich „IS-IS vs. OSPF fürs ISP-Backbone“ ist weniger eine Religionsfrage als eine Entscheidung über Fehlerszenarien, Skalierung und Konvergenzverhalten im Alltag. Beide Protokolle sind Link-State-IGPs, beide bauen eine Topologie-Datenbank auf und berechnen Pfade mit SPF (Dijkstra). Trotzdem unterscheiden sie sich spürbar in Bedienbarkeit, Default-Verhalten, Erweiterbarkeit und in den typischen Failure Modes, die ein NOC…