vPC/MLAG im Data Center: Split-Brain-Detection und Recovery

vPC/MLAG im Data Center ist für viele Betreiber der Standard, um Server, Storage und Edge-Systeme redundant an zwei Switches anzubinden, ohne Spanning Tree als primären Loop-Mechanismus zu benötigen. Der große Vorteil: ein aktives/aktives Uplink-Bündel (LACP) über zwei physische Geräte hinweg, hohe Verfügbarkeit und meist bessere Auslastung. Die größte operative Gefahr ist allerdings ein Fehlerzustand, der…

EVPN Route Types: Was man fürs Troubleshooting wissen muss

EVPN Route Types sind für Troubleshooting in EVPN/VXLAN-Umgebungen der schnellste Weg, um „Underlay ok, aber Service kaputt“ sauber zu erklären. In klassischen VLAN-Designs sieht man Probleme oft direkt in der Datenebene: VLAN fehlt am Trunk, STP blockt, MAC wird nicht gelernt. In EVPN wird ein großer Teil dieser „Wahrheit“ über BGP in der Control Plane…

Service Insertion im Fabric: Firewall/LB Traffic Steering (Ops Guide)

Service Insertion im Fabric ist die operative Disziplin, mit der Sie Traffic gezielt über Sicherheits- und L4–L7-Services führen, ohne die Fabric-Architektur zu „verbiegen“. Gemeint sind vor allem Firewall- und Load-Balancer-Traffic-Steering-Szenarien: Ost-West-Traffic zwischen Workloads soll durch eine Firewall-Policy, Nord-Süd-Traffic soll über einen zentralen Perimeter laufen, oder bestimmte Applikationsflüsse sollen an einem Inline-LB, einem WAF oder einem…

Multi-Tenant-Fabric: Sichere Segmentierung mit VRF + EVPN

Eine Multi-Tenant-Fabric verlangt sichere Segmentierung, die nicht nur auf dem Papier funktioniert, sondern auch im Betrieb belastbar bleibt: klare Isolation zwischen Mandanten, kontrollierte Kommunikation über definierte Übergänge und ein Troubleshooting-Ansatz, der bei Incidents nicht im Chaos endet. In modernen Data-Center-Architekturen ist dafür die Kombination aus VRF und EVPN besonders etabliert. VRFs schaffen logische Routing-Isolation (Layer…

Multi-Vendor-EVPN-Interop: Häufigste Probleme und wie man testet

Multi-Vendor-EVPN-Interop ist in der Praxis kein „einmal konfigurieren und vergessen“-Thema, sondern ein wiederkehrendes Ops-Risiko: Zwei Geräte sprechen zwar beide EVPN und VXLAN, aber sie interpretieren Details unterschiedlich, haben abweichende Defaults oder unterstützen bestimmte Optionen nur teilweise. Das Resultat sind Störungen, die im NOC wie „mysteriös“ wirken: BGP EVPN ist up, Underlay ist grün, trotzdem fehlt…

L2-Extension-Risiko: Wann VLAN-Stretch zur Katastrophe wird

L2-Extension-Risiko beschreibt die operativen und architektonischen Gefahren, die entstehen, wenn Sie ein VLAN (oder eine Layer-2-Broadcast-Domain) über größere Bereiche „stretchen“ – etwa über mehrere Racks, Pods, Datacenter oder sogar Metropolregionen. VLAN-Stretch kann kurzfristig attraktiv wirken: keine IP-Änderungen bei Migrationen, einfache Applikationsannahmen, „alles ist im gleichen Subnet“. Genau diese Einfachheit wird jedoch schnell zur Katastrophe, sobald…

SPAN/ERSPAN im VXLAN-Fabric: Best Practices für PCAP

SPAN/ERSPAN im VXLAN-Fabric ist eines der wichtigsten Werkzeuge, wenn Sie für Troubleshooting oder Security-Forensik wirklich ein PCAP benötigen. Gleichzeitig ist es in Overlays deutlich anspruchsvoller als in klassischen VLAN-Topologien: Sie müssen entscheiden, ob Sie den Traffic „innerhalb“ des Overlays (inner payload) oder „außen“ im Underlay (encapsulated) spiegeln, wie Sie VTEPs, VNIs und VRFs richtig zuordnen…

RCA „Blackhole“ im Overlay: Mit Telemetrie beweisen

Ein RCA „Blackhole“ im Overlay zu schreiben ist anspruchsvoller als ein klassisches „Link down“-Postmortem, weil die sichtbaren Symptome oft nicht zur eigentlichen Ursache passen. In EVPN/VXLAN- und ähnlichen Overlay-Fabrics kann der Underlay vollständig „grün“ sein (VTEP-Reachability stabil, BGP-Sessions up), während einzelne Flows oder ganze Segmente trotzdem im Nirgendwo verschwinden. Genau das ist ein Blackhole: Pakete…

DWDM Failure Modes: ROADM, Amplifier und Channel Issues (RCA Guide)

DWDM Failure Modes in Transportnetzen sind selten „einfach kaputt“, sondern zeigen sich häufig als Kombination aus schleichender Degradation, intermittierenden Fehlern und kaskadierenden Folgeeffekten auf IP- und Service-Ebene. Wenn in einem DWDM-Backbone plötzlich FEC-Korrekturen steigen, OSNR sinkt, einzelne Kanäle aus dem Raster laufen oder ein kompletter ROADM-Pfad instabil wird, ist die eigentliche Herausforderung nicht das Erkennen…

Broadcast-/Storm-Control: Tuning ohne legitimen Traffic zu kappen

Broadcast-/Storm-Control ist in Aggregation, Access und Metro-Ethernet ein unverzichtbares Schutzinstrument: Es verhindert, dass Loops, Fehlkonfigurationen oder kompromittierte Endgeräte ein Segment mit Broadcast-, Multicast- oder Unknown-Unicast-Traffic überfluten und damit ganze Service-Domänen destabilisieren. Gleichzeitig ist Storm-Control eine der häufigsten Ursachen für „selbst verursachte“ Störungen, wenn Schwellenwerte zu aggressiv oder ohne Verständnis der legitimen Traffic-Muster gesetzt werden. Dann…