Route-Leak-Response-Plan: Mitigation in Minuten (Provider Runbook)

Ein Route-Leak-Response-Plan ist im Provider-Betrieb kein „Nice-to-have“, sondern eine Überlebensfunktion: Route Leaks können in wenigen Minuten weltweite Auswirkungen erzeugen, weil falsche Ankündigungen (Announcements) Trafficströme umleiten, Congestion verschieben und im Extremfall Blackholing auslösen. Das Tückische dabei: Die BGP-Session bleibt häufig stabil, Interfaces sind „up“, und trotzdem kippt die Routing-Wahrheit. Genau deshalb muss Mitigation in Minuten funktionieren…

MTU Underlay vs. Overlay: Ursache für „mysteriöse“ VXLAN-Drops

MTU Underlay vs. Overlay ist eine der häufigsten Ursachen für „mysteriöse“ VXLAN-Drops in modernen EVPN/VXLAN- und Overlay-Netzen. Das Gemeine daran: Der Dienst wirkt teilweise gesund. Kleine Pings funktionieren, Control Plane (BGP EVPN) ist stabil, ARP/ND scheint zu laufen – und trotzdem brechen Anwendungen ab, TCP zeigt Retransmissions, Datenübertragungen sind langsam oder instabil, und manche Flows…

ARP/ND Suppression in EVPN: Nutzen und operative Pitfalls

ARP/ND Suppression in EVPN ist ein zentraler Baustein moderner Overlay-Netze, weil er eines der klassischen Probleme großer Layer-2-Domänen entschärft: Flooding. In traditionellen VLAN- oder VPLS-Umgebungen werden ARP (IPv4) und Neighbor Discovery (IPv6) häufig als Broadcast bzw. Multicast über die gesamte Broadcast-Domain verteilt. Je größer die Domain, desto größer das Grundrauschen – und desto höher das…

Control Plane Policing (CoPP): CPU-Spikes im Fabric verhindern

Control Plane Policing (CoPP) ist eine der wirkungsvollsten Maßnahmen, um CPU-Spikes im Fabric zu verhindern und damit die Stabilität von Routing, EVPN/VXLAN, OAM und Management dauerhaft zu erhöhen. In modernen Spine-Leaf-Architekturen ist die Datenebene (ASIC) meist sehr robust und kann enorme Paketmengen weiterleiten – aber die Control Plane bleibt ein begrenzter, gemeinsam genutzter Ressourcenpool. Genau…

vPC/MLAG im Data Center: Split-Brain-Detection und Recovery

vPC/MLAG im Data Center ist für viele Betreiber der Standard, um Server, Storage und Edge-Systeme redundant an zwei Switches anzubinden, ohne Spanning Tree als primären Loop-Mechanismus zu benötigen. Der große Vorteil: ein aktives/aktives Uplink-Bündel (LACP) über zwei physische Geräte hinweg, hohe Verfügbarkeit und meist bessere Auslastung. Die größte operative Gefahr ist allerdings ein Fehlerzustand, der…

EVPN Route Types: Was man fürs Troubleshooting wissen muss

EVPN Route Types sind für Troubleshooting in EVPN/VXLAN-Umgebungen der schnellste Weg, um „Underlay ok, aber Service kaputt“ sauber zu erklären. In klassischen VLAN-Designs sieht man Probleme oft direkt in der Datenebene: VLAN fehlt am Trunk, STP blockt, MAC wird nicht gelernt. In EVPN wird ein großer Teil dieser „Wahrheit“ über BGP in der Control Plane…

Service Insertion im Fabric: Firewall/LB Traffic Steering (Ops Guide)

Service Insertion im Fabric ist die operative Disziplin, mit der Sie Traffic gezielt über Sicherheits- und L4–L7-Services führen, ohne die Fabric-Architektur zu „verbiegen“. Gemeint sind vor allem Firewall- und Load-Balancer-Traffic-Steering-Szenarien: Ost-West-Traffic zwischen Workloads soll durch eine Firewall-Policy, Nord-Süd-Traffic soll über einen zentralen Perimeter laufen, oder bestimmte Applikationsflüsse sollen an einem Inline-LB, einem WAF oder einem…

Multi-Tenant-Fabric: Sichere Segmentierung mit VRF + EVPN

Eine Multi-Tenant-Fabric verlangt sichere Segmentierung, die nicht nur auf dem Papier funktioniert, sondern auch im Betrieb belastbar bleibt: klare Isolation zwischen Mandanten, kontrollierte Kommunikation über definierte Übergänge und ein Troubleshooting-Ansatz, der bei Incidents nicht im Chaos endet. In modernen Data-Center-Architekturen ist dafür die Kombination aus VRF und EVPN besonders etabliert. VRFs schaffen logische Routing-Isolation (Layer…

Multi-Vendor-EVPN-Interop: Häufigste Probleme und wie man testet

Multi-Vendor-EVPN-Interop ist in der Praxis kein „einmal konfigurieren und vergessen“-Thema, sondern ein wiederkehrendes Ops-Risiko: Zwei Geräte sprechen zwar beide EVPN und VXLAN, aber sie interpretieren Details unterschiedlich, haben abweichende Defaults oder unterstützen bestimmte Optionen nur teilweise. Das Resultat sind Störungen, die im NOC wie „mysteriös“ wirken: BGP EVPN ist up, Underlay ist grün, trotzdem fehlt…

L2-Extension-Risiko: Wann VLAN-Stretch zur Katastrophe wird

L2-Extension-Risiko beschreibt die operativen und architektonischen Gefahren, die entstehen, wenn Sie ein VLAN (oder eine Layer-2-Broadcast-Domain) über größere Bereiche „stretchen“ – etwa über mehrere Racks, Pods, Datacenter oder sogar Metropolregionen. VLAN-Stretch kann kurzfristig attraktiv wirken: keine IP-Änderungen bei Migrationen, einfache Applikationsannahmen, „alles ist im gleichen Subnet“. Genau diese Einfachheit wird jedoch schnell zur Katastrophe, sobald…