BGP-Monitoring: Sessions, Prefixes und Anomaly Detection

BGP-Monitoring ist für Provider, Carrier und größere Enterprise-Netze eine Kernfunktion, weil BGP nicht nur „ein Routing-Protokoll“ ist, sondern die Verkehrslenkung, Verfügbarkeit und Stabilität vieler Dienste bestimmt. In der Praxis scheitern Incidents selten daran, dass BGP „komplett ausfällt“, sondern daran, dass sich das Routing schleichend verändert: Sessions flappen sporadisch, Prefixes fehlen nach einem Policy-Change, ein Route…

Graceful Shutdown: Sichere Maintenance ohne Traffic Drops

Graceful Shutdown ist eine der zuverlässigsten Methoden, um geplante Maintenance im Provider- und Data-Center-Betrieb durchzuführen, ohne Traffic Drops zu erzeugen. Die Idee ist einfach: Bevor ein Router, Switch, Firewall-Cluster oder eine Service-Instanz offline geht, wird sie so „entkoppelt“, dass neuer Traffic kontrolliert aus dem Knoten herausgelenkt wird, während bestehende Flows sauber auslaufen (Drain). In der…

EVPN Change-Validation-Checkliste: Minimaltests vor „All Clear“

Eine EVPN Change-Validation-Checkliste ist der Unterschied zwischen „Change fertig“ und „Change wirklich sicher“. In EVPN/VXLAN-Fabrics sind viele Fehler nicht sofort sichtbar: BGP EVPN kann „up“ sein, während Route Targets falsch importiert werden; Underlay kann grün wirken, während MTU/PMTUD pfadspezifisch dropt; Multihoming kann nominal aktiv sein, aber DF-Wahl flapped erst beim nächsten Failover; und ARP/ND-Suppression kann…

L2-Loops im Access Network: Früherkennung und Response-Plan

L2-Loops im Access Network gehören zu den schnellsten und zerstörerischsten Störungsursachen in Layer-2-dominierten Provider- und Enterprise-Umgebungen: Innerhalb von Sekunden kann ein einziger Loop an einem Kundenport oder in einem Access-Switch eine komplette Broadcast-Domain überfluten, MAC-Tabellen in der Aggregation füllen, Uplinks sättigen und dadurch dutzende oder hunderte Services gleichzeitig beeinträchtigen. Das Problem ist dabei nicht nur…

IS-IS vs. OSPF fürs ISP-Backbone: Operativer Vergleich und Konvergenz

Der operative Vergleich „IS-IS vs. OSPF fürs ISP-Backbone“ ist weniger eine Religionsfrage als eine Entscheidung über Fehlerszenarien, Skalierung und Konvergenzverhalten im Alltag. Beide Protokolle sind Link-State-IGPs, beide bauen eine Topologie-Datenbank auf und berechnen Pfade mit SPF (Dijkstra). Trotzdem unterscheiden sie sich spürbar in Bedienbarkeit, Default-Verhalten, Erweiterbarkeit und in den typischen Failure Modes, die ein NOC…

EVPN Fundamentals für Ops: Underlay vs. Overlay (praxisnah erklärt)

EVPN Fundamentals für Ops sind heute Pflichtwissen, weil immer mehr Metro-, Datacenter- und Provider-Netze Ethernet-Services nicht mehr als „große Bridge-Domänen“ betreiben, sondern als Overlay über ein IP-Underlay. Genau hier entsteht im Betrieb häufig Verwirrung: Ein Ticket klingt nach Layer 2 („MAC flapped“, „VLAN geht nicht“), aber die Ursache liegt im Underlay (BGP/IGP, MTU, ECMP, BFD,…

BGP-Peering-Troubleshooting: Interconnect, Policy oder Congestion?

BGP-Peering-Troubleshooting ist im Provider- und Carrier-Umfeld eine der häufigsten Ursachen für eskalierende Tickets, weil Symptome auf Kundenseite selten eindeutig sind: „Latenz hoch“, „Packet Loss“, „bestimmte Ziele unreachable“ oder „Traffic nimmt plötzlich einen anderen Pfad“. In der Praxis steckt dahinter meist eine von drei Klassen: ein Interconnect-Problem (physisch oder L2/L3 am Peering-Port), ein Policy-Problem (Filter, Attributes,…

EVPN Multihoming: Failure Modes und Validierungs-Checkliste

EVPN Multihoming ist einer der größten operativen Vorteile von EVPN – und gleichzeitig eine der häufigsten Ursachen für schwer erklärbare Störungen, wenn Design, Konfiguration und Validierung nicht zusammenpassen. Das Versprechen klingt einfach: Ein Customer Edge (CE) oder ein Access-Switch wird redundant an zwei Provider Edge/VTEPs angebunden, ohne klassische Layer-2-Loop-Fallen, oft ohne STP-Abhängigkeit, und mit kontrolliertem…

Route Leak: Detection über Prefix Count und Monitoring

Ein Route Leak ist einer der gefährlichsten Fehler im Internet-Routing, weil er „leise“ starten und in Minuten global eskalieren kann: Plötzlich werden Routen in die falsche Richtung propagiert, Traffic nimmt unerwartete Pfade, Latenz steigt, Congestion verschiebt sich, und im schlimmsten Fall entsteht ein großflächiger Outage durch Überlast oder Blackholing. Operativ ist das Problem tückisch, weil…

EVPN-VXLAN Troubleshooting: Warum es anders ist als klassisches VLAN

EVPN-VXLAN Troubleshooting ist anders als klassisches VLAN-Troubleshooting, weil sich die Fehlerdomäne von „ein gemeinsames Layer-2-Segment“ zu einem Overlay-Transport über ein IP-Underlay verschiebt. In klassischen VLAN-Designs entstehen die meisten Probleme durch lokale Bridging-Mechanik: falsche VLAN-Zuordnung am Port, STP/Loop-Themen, MAC-Learning, Flooding, falsch gesetzte MTU oder ein defekter Trunk. In EVPN-VXLAN kommt eine zweite Welt hinzu: Das Underlay…